一、数据与属性
属性:数据的字段/维度,说明数据内容含义。
数据属性:(1)属性说明(2)取值说明(3)单位量纲
属性分类:(1)标称属性(2)二元属性(3)序数属性(4)数值属性
1. 标称属性
- 数值计算没有意义,如01表示汉族,02表示满族,03表示回族,相加没有意义。
2. 二元属性
- 对称的二元属性:两个状态有相同价值,相同权重。
- 不对称的二元属性:两个状态的重要性不同,如HIV阳性和HIV阴性,阴性数量远远小于阳性,出现概率不一样。
3. 序数属性
- 属性之间有顺序关系。如,讲师、副教授、教授。
- 可以比较,但不能表达差异大小。例如,教授-副教授的差与副教授-讲师的差,很难比较。本科-高中,高中-初中,不知道差异大小。
- 可以用于连续数值的离散化。
上述三种属性都是定性,不是定量。
4. 数值属性
- 定量的,可以算
- 有些时候不能直接算,要做一些处理之后再算。例如,月入8000和月入2000的差别,如果直接除法则是4倍。如果(8000-1500)/(2000-1500)则是另外一种情况。
二、属性度量
- 数据矩阵 :也叫二模矩阵。
- 相异度矩阵:也叫单模矩阵。存储实体间的差异,对角线是自己与自己的差异,为0。
- 相似性与相异度计算
1. 属性拆分
例如:身份证可以拆分成:省份、城市、生日等,进一步可以推断出是南方人还是北方人、星座是什么等。
2. 区间标度变量
课件PPT中有大量细节算法思路,此处不赘述。
三、基本统计描述
- 总量描述
- 中心趋势描述