1. 数据属性
数据对象是通过属性来描述的。
(1)名词型属性:各个属性值之间没有距离关系。
a. 二元型属性:只有两个取值的名词型属性;两个取值同等重要的是对称型(如男和女),不同等重要的为不对称(如阳性和阴性)。
b. 顺序型属性:取值有排序效果,如小中大。
(2)数值型属性:数值型属性一般都要归一化,以减少量纲带来的影响
(3)离散性属性 VS 连续型属性
2. 数据基本统计
均值、中位数(也叫二分位数)、众数、方差、异常值、分位数
3. 数据统计图
(1)箱形图 Boxplot (pyplot怎么画) (不同的数据分布,画出来的Boxplot可能一样)
Minimum Q1 Median Q3 Maximum (最小值、第一四分位数、中位数、第三四分位数、最大值)
(2)直方图 Histogram:简单直观、能够较好展示数据的分布,展示的信息比箱型图多。
(3)Q-Q图 Quantile: (加强版是Quantile-Quantile图)
(4)散点图 Scatter
4. 数据可视化
(1)基于像素的可视化技术:每个像素代表一个值,如机器翻译中attention的可视化
(2)几何投影可视化技术:平行坐标、直接可视化等,如人体结构数据可视化
(3)图形可视化,如人脸表情
(4)分层可视化
(5)复杂数据可视化:非数值型数据的可视化,如文本(词云)、社交网络等
5. 数据相似性和差异性度量
(1) 相似性
(2)差异性(距离)
接近:指相似性或者差异性
名词型属性:直接算相同的个数比,d(i, j) = (p-m) / p; m代表形同的个数,p代表总个数
Jaccard系数
数值型属性:先归一化,再计算相似度;欧式距离,闵可夫斯基距离,曼哈顿距离,上确界的距离,余弦相似度,