复习笔记
- 数据是对描述对象的抽象
属性类型
标称、序数属性通常为离散的,区间和比率属性通常是连续的
- 数据类型
- 记录数据
- 图数据
- 有序数据
- 数据的统计描述
- 中心趋势(均值,众数,中位数)
- 数据的散布(极差,方差,四分位数等)
- 可视化(直方图、散点图)
- 数据的相似性
- 闵可夫斯基(Minkowski) 距离
- p=1 ,曼哈坦 (Manhattan)距离
- p=2 ,欧几里德(Euclidean)距离
- 余弦相似性(向量内积空间的夹角)
- 马氏距离 (考虑数据局部分布)
- 相关系数 (皮尔森系数)
- KL散度(数据分布比较)
- 数据标准化
- 平均绝对误差(Mean Absolute Error)
- 平均偏差(Average Deviation)
- 平均绝对误差(Mean Absolute Error)
- 闵可夫斯基(Minkowski) 距离