本文主要对相关系数做出介绍,了解各种相似性和相异性度量的方法,以及适用的场景。
一、 数据类型
首先对数据的类型进行介绍:在统计学上,将数据分为定性和定量两种类型。定量数据表示事物的数量或者个数,用数值标度度量。例如:转账的金额1000/次,转账的笔数2次/月。定性数据是指的没有量的解释,它们只能分类,例如:性别,职业,学历等。因为用来描述和分析数据的合适的统计工具依赖于数据类型的,因此,区别定量数据和定性数据很重要。
定性数据的图形描述方法常用的是条形图和饼图。条形图给出相应的每一类的频数(或者相对频率),长方形的高度或者长度与类的频数(相对频率)成比例。饼图将一个圆分成几份,每一份代表一个类,每份中心角与类相对频率成比例。帕累托图将定性变量的类按照高度从左到右进行降序排列条形图。帕累托图是质量控制中的一种重要的图形,有助于辨别最严重的问题区域。
定量数据的图形方法:点图、茎叶图和直方图。
二、 相似性和相异性
相似性定义这两个对象相似程度的数值度量。相似性越高,度量值就越大。一般相似度的取值在0和1之间。
相异性定义两个对象差异程度的数值度量,对象差别越大,度量值越大。一般相异性的取值在