《数据挖掘》国防科技大学
《数据挖掘》青岛大学
《数据挖掘与python实践》
数据挖掘之认识数据
1. 数据和信息
**数据(data)**是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。
在计算机系统中,各种字母、数字符号的组合、语音、图形、图像等统称为数据,数据经过加工后就成为信息。
2. 数据对象及属性类型
数据集由数据对象组成,一个数据对象对应一个实体,数据对象也可以成为元组。
用于表示数据对象的特征或功能的数据字段称为属性。
属性类型:
- 标称属性 nominal:状态可列举
特殊:二进制属性,(0,1)
· 对称二进制:数量相当
· 不对称二进制:数量差距大 - 序数属性 ordinal:有意义的顺序,如大、中、小
- 区间标度属性 interval scaled:以单位长度顺序性度量,值有序,无零点,倍数无意义
- 比率标度属性 ratio scaled:具有固定零点的数值属性,有序且可以计算倍数
(标称属性和叙述属性是定性的,区间标度属性和比率标度属性是定量的)
离散属性(Discrete Attribute)&连续属性(Continuous Attribute)
2. 数据统计
集中趋势
- 均值 mean
- 中位数 median
- 众数 mode
经验公式:mean - mode = 3×(mean - median)
离散趋势【变异程度的度量】
- 极差(range,全距):最大值与最小值的差距
- 方差(Variance):数据值与平均值之间的差异
- 标准差(Standard deviation):方差的正平方根
- 变异系数:标准差相对于平均数的大小的度量
分位数
四分位数(quartile): Q1 (25th 百分位数percentile), Q3 (75th percentile)
中间四分位数极差(Inter-quartile range): IQR = Q3 – Q1
五数概括: min, Q1, median, Q3, max
3. 数据可视化
数据可视化、过程可视化、结果可视化
基本统计图:
- 箱线图/盒图(Box plot):可以分析多个属性数据的分布差异性
离群点:通常情况下高于或低于1.5 IQR的值 - 直方图:可以分析单个属性在各个区间的变化分布
- 散点图:可以用来显示两组数据的相关性分布,正相关、负相关、不相关
4. 数据相似性
数据矩阵:N×p,N个数据,p个维度
相异矩阵,N个数据点,记录两点之间的距离,下三角矩阵
相似性度量
- 相似度 similarity:[0,1],值越大越相似
- 相异度 dissimilarity/distance:值越小越相似
- 邻近性 proximity (相似度或相异度)
(1)标称属性的邻近性度量
对于二值属性:
(2)序数属性的邻近性度量
(3)数值属性的邻近性度量
① 闵可夫斯基距离 Minkovski distance
曼哈顿距离 Manhattan Distance:L1范数
欧氏距离 Euclidean Distance:L2范数
上确界距离/切比雪夫距离 Supremum Distance:Lmax,L∞范数(指所有的属性之间,差值最大的即为两个对象的距离)
② Z-score(标准化)
③ 余弦相似性
cos(d1, d2) = (d1 • d2) /||d1|| ||d2||
(4)混合属性的邻近性度量