数据挖掘期末复习
题型
- 选择题:单选7 + 多选7(上课认真听课) 每道3分
- 解答 6道 概念性:什么是数据挖掘啊之类的
- 计算2道-3道(高分必备) 第二章 kk计算 第三章 aprio计算 第四章 树的东西 kmeans 签名矩阵 回归
- 综合:作为一个数据科学家怎么解决
概要和认识数据与数据预处理
-
什么是大数据?
- Big data is a buzzword, or catch-phrase, used to describe a massive volume of both structured and unstructured data that is so large that it’s difficult to process using traditional database and software techniques.
- 大数据是一个流行语,用于描述大量的结构化和非结构化数据,这些数据是如此之大,以至于很难使用传统的数据库和软件技术进行处理。
-
大数据的特征
- Volume 大数量
- Varity 多样性
- Velocity 快速度
- Veracity 真实性
-
什么是数据挖掘
- 大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 。
-
知识发现的流程是什么?核心?(KDD)
数据挖掘是“数据库知识发现”(Knowledge-Discovery in Databases, KDD)的分析步骤
- 知识发现的核心–》数据挖掘
- 数据清理、数据集成、数据选择、数据变换、数据挖掘、 模式评估 和知识表示
-
数据挖掘的四大任务
- 关联分析(关联规则挖掘)
- 聚类分析
- 分类/预测
- 孤立点(离群点)检测
-
数据挖掘与其他学科
-
好像没什么东西
-
学科的交叉性:机器学习、数据库、统计学、拓扑学等具有紧密的联系
挑战:高维,大数据、数据类型、参数、数据演化性和数据隐私/安全性
常见工具包/期刊、会议。
-
-
认识数据与数据预处理
-
数据的属性:分类型和数值型
- 分类型
- 标称(特殊:二元)
- eg:ID号、眼球颜色、邮政编码
- 序数
- eg:军阶、GPA、用{tall,medium,short}表示的身高
- 标称(特殊:二元)
- 数值型
- 区间
- eg:日历、摄氏或华氏温度
- 比率
- eg:长度、计数
- 区间
- 分类型
-
数据的统计特征
- 中心趋势度量
- 均值,众数,中位数,中列数(数据集的最大和最小的平均值)
- 数据的散度
- 极差、四分位数、四分位数极差,五数概括,盒图
- 可视化
- 分位数图(观察单变量数据分布)
- f i = i − 0.5 N X i ( i = 1 , . . . , N ) 递 增 排 列 的 数 据 f_i=\frac{i-0.5}{N}~~X_i(i=1,...,N)递增排列的数据 fi=Ni−0.5 Xi(i=1,...,N)递增排列的数据
- 中心趋势度量
-
中心趋势:
-
中位数:有序数据值的中间值。
-
均值:总和/个数
-
中列数:数据集的最大和最小值的平均值
-
众数
-
n对于非对称的单峰数据,有以下经验关系:
mean-mode ~ 3*(mean-median)
-
-
-
散度:方差、极差
- 极差 max-min
- 四分位数(注意其实是三个数哦:Q1,Q2,Q3)
- 四分位数极差 Q3-Q1
- 方差
- 五数概括:[ min,Q1,median,Q3,max]
-
数据的相似性度量
- 标称属性数据
- 标称变量是二元变量的拓广,它可以取多余两种状态值,如:red,yellow,blue
- 相异性度量方法:
- m:状态取值匹配的变量数目,p:变量总数
- d ( i , j ) = p − m p d(i,j)=\frac{p-m}{p} d(i,j)=pp−m
- 标称属性数据
-
标称型数据:对称和非对称
-
二元属性
-
计算二元变量的相似度
- 首先获取列联表
-
对称的二元变量的相异度计算
- d ( i , j ) = r + s q + r + s + t d(i,j)=\frac{r+s}{q+r+s+t} d(i,j)=q+r+s+tr+s
-
-
非对称的二元属性
-
一个值比另一个更重要
-
不对称的二元变量属性的相异度计算
- d ( i , j ) = r + s q + r + s = 1 − q q + r + s = 1 − J a c c a r d ( i , j ) d(i,j)=\frac{r+s}{q+r+s}=1-\frac{q}{q+r+s}=1-Jaccard(i,j) d(i,j)=q+r+sr+s=1−q+r+sq=1−Jaccard(i,j)
- 对于非对称的相似度,负匹配数目t被忽略
-
Eg:
Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4 Jack M 1 N P N N N Mary F 1 N P N P N Jim M 1 P N N N N -
gender对称
-
其余不对称
-
Y和P设置为1,N设置为0
-
Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4 Jack M 1 0 1 0 0 0 Mary F 1 0 1 0 1 0 Jim M 1 1 0 0 0 0 -
d ( J a c k , M a r y ) = 0 + 1 2 + 0 + 1 = 0.33 d ( j a c k , j i m ) = 1 + 1 1 + 1 + 1 = 0.67 d ( j i m , m a r y ) = 1 + 2 1 + 1 + 2 = 0.75 d(Jack,Mary)=\frac{0+1}{2+0+1}=0.33\\d(jack,jim)=\frac{1+1}{1+1+1}=0.67\\d(jim,mary)=\frac{1+2}{1+1+2}=0.75 d(Jack,Mary)=2+0+10+1=0.33d(jack,jim)=1+1+11+1=0.67d(jim,mary)=1+1+21+2=0.75
-
-
-
-
数值型:欧氏距离
- 使用距离来度量两个数据对象之间的相似性/相异性
- 闵可夫斯基: d ( i , j ) = ( f ( x ) = ∣ x i 1 − x j 1 ∣ q + ∣ x i 2 − x j 2 ∣ q ) + … … + ∣ x i p − x j p ∣ q q d(i,j)=\sqrt[q]{(f(x)=\vert x_{i1}-x_{j1}\vert^q+\vert x_{i2}-x_{j2}\vert^q)+……+\vert x_{ip}-x_{jp}\vert^q} d(i,j)=q(f(x)=∣xi1−xj1∣q+∣xi2−xj2∣q)+……+∣xip−xjp∣q
- 其中 ( i = x i 1 , x i 2 , . . . , x i p ) (i=x_{i1},x_{i2},...,x_{ip}) (i=xi1,xi2,...,xip)和 j = ( x j 1 , x j 2 , . . . , x j p ) j=(x_{j1},x_{j2},...,x_{jp}) j=(xj1,xj2,...,xjp)是两个p-维的数据对象(q正整数)
- q=1,d是曼哈顿距离
- q=2,d是欧几里德距离
-
数据预处理:
-
数据清理:缺失值 噪声
- 空缺值,噪声数据,删除孤立点,解决不一致性
- 如何处理空缺值
- 忽略元组
- 人工填写(工作量大,可行性低)
- 使用一个全局变量填充空缺值
- 使用属性的平均值填充空缺值
- 使用与给定元组所属同一类的所有样本的平均值
- 使用最可能的值填充空缺值:使用像Bayesian公式或判定树这样预测的方法
- 噪声数据:一个测量变量中的随机错误或偏差
- 如何处理噪声数据:
- 分箱
- 聚类
- 回归
-
数据集成:相关性分析 卡方检验
- 集成多个数据库、数据立方体或文件
- 数据集成-冗余数据处理
- 数值型:相关分析
- 相关系数(皮尔逊相关系数): r A , B = ∑ i = 1 n ( a i − A ‾ ) ( b i − B ‾ ) ( n − 1 ) σ A σ B = ∑ i = 1 n ( a i b i − n A ‾ B ‾ ) ( n − 1 ) σ A σ B r_{A,B}=\frac{\sum_{i=1}^{n}(a_i-\overline{A})(b_i-\overline{B})}{(n-1)\sigma_A\sigma_B}=\frac{\sum_{i=1}^{n}(a_ib_i-n\overline{A}\overline{B})}{(n-1)\sigma_A\sigma_B} rA,B=(n−1)σAσB∑i=1n(ai−A)(bi−B)=(n−1)σAσB∑i=1n(aibi−nAB)
- n为样本个数, A ‾ \overline{A} A和 B ‾ \overline{B} B属性A和B上的平均值,其他分别为标准差
- r A , B r_{A,B} rA,B>0,A和B正相关,值越大相关程度越高
- r A , B r_{A,B} rA,B=0:不相关; r A , B r_{A,B} rA,B<0,负相关
- 协方差:衡量两个变量的变化趋势是否一致: C o v ( A , B ) = E ( ( A − A ‾ ) ( B − B ‾ ) ) = ∑ i = 1 n ( a i − A ‾ ) ( b i − B ‾ ) ) n Cov(A,B)=E((A-\overline{A})(B-\overline{B}))=\frac{\sum_{i=1}^{n}(a_i-\overline{A})(b_i-\overline{B}))}{n} Cov(A,B)=E((A−A)(B−B))=n∑i=1n(ai−A)(bi−B))
- r A , B = C o v ( A , B ) σ A σ B r_{A,B}=\frac{Cov(A,B)}{\sigma_A\sigma_B} rA,B=σAσBCov(A,B)
- Cov(A,B)>0,A和B同时倾向于大于期望值
- Cov(A,B)<0,若A大于期望值,B很可能小于期望值
- Cov(A,B)=0,不正确
- 标称数据:卡方检验
- σ i j 是 ( a i , b j ) 的 观 测 频 度 ( 实 际 计 数 ) \sigma_{ij}是(a_i,b_j)的观测频度(实际计数) σij是(ai,bj)的观测频度(实际计数)
- e i j 是 ( a i , b j ) 的 期 望 频 度 e_{ij}是(a_i,b_j)的期望频度 eij是(ai,bj)的期望频度
- N是数据原则的个数
- χ 2 = ∑ i = 1 c ∑ j = 1 r ( σ i j − e i j ) 2 e i j \chi^2=\sum_{i=1}^{c}\sum_{j=1}^{r}\frac{(\sigma_{ij}-e_{ij})^2}{e_{ij}} χ2=i=1∑cj=1∑reij(σij−eij)2
- e i j = c o u n t ( A = a i ) ∗ c o u n t ( B = b j ) N e_{ij}=\frac{count(A=a_i)*count(B=b_j)}{N} eij=Ncount(A=ai)∗count(B=bj)
- 自由度:(c-1)*(r-1)
- eg:
- 数值型:相关分析
-
数据规约:维度规约和数量规约
- 得到数据集的压缩表示,但可以得到相同或相近的结果
- 数据规约策略:
- 维规约:小波分析、PCA、特征筛选
-
小波变换:保存小波较大的系数进行原始数据的压缩,主要用于图像分析中
-
PCA:找到一个投影,其能表示数据的最大变换
-
特征筛选:通过删除不相干的属性或维减少数据量
- 算法:信息增益(ID3)
- 信息熵:
- 定义: H ( x ) = − ∑ i = 1 n P ( x i ) l o g p ( x i ) H(x)=-\sum_{i=1}^{n}P(x_i)log p(x_i) H(x)=−i=1∑nP(xi)logp(xi)
- 例子: P ( X = A ) = 4 / 10 , P ( X = B ) = 2 / 10 ; P ( X = C ) = 4 / 10 P ( Y = A ) = 6 / 10 , P ( Y = B ) = 2 / 10 ; P ( Y = C ) = 2 / 10 H ( X ) = − ( 0.4 ∗ l o g 2 0.4 + 0.2 ∗ l o g 2 0.2 + 0.4 ∗ l o g 2 0.4 ) = 1.52 H ( Y ) = − ( 0.6 ∗ l o g 2 0.6 + 0.2 ∗ l o g 2 0.2 + 0.2 ∗ l o g 2 0.2 ) = 1.37 P(X=A) = 4/10, P(X=B) =2/10; P(X=C) = 4/10\\P(Y=A) = 6/10, P(Y=B) =2/10; P(Y=C) = 2/10\\H(X) = -(0.4*log_20.4+0.2*log_20.2+0.4*log_20.4) = 1.52\\H(Y) = -(0.6*log_20.6+0.2*log_20.2+0.2*log_20.2) = 1.37 P(X=A)=4/10,P(X=B)=2/10;P(X=C)=4/10P(Y=A)=6/10,P(Y=B)=2/10;P(Y=C)=2/10H(X)=−(0.4∗log20.4+0.2∗log20.2+0.4∗log20.4)=1.52H(Y)=−(0.6∗log20.6+0.2∗log20.2+0.2∗log20.2)=1.37
- 条件信息熵:刻画在已知X的基础上需要多少信息来描述Y
- 定义: H ( Y ∣ X ) = ∑ x ∈ χ p ( x ) H ( Y ∣ X = x ) = − ∑ x ∈ χ p ( x ) ∑ y ∈ χ p ( y ∣ x ) l o g p ( y ∣ x ) H(Y|X)=\sum_{x\in\chi}p(x)H(Y|X=x)\\=-\sum_{x\in\chi}p(x)\sum_{y\in\chi}p(y|x)log p(y|x) H(Y∣X)=x∈χ∑p(x)H(Y∣X=x)=−x∈χ∑p(x)y∈χ∑p(y∣x)logp(y∣x)
- eg:
-
信息增益:刻画在已知X的基础上需要节约多少信息来描述Y
- IG(Y|X)=H(Y)-H(Y|X)
-
信息增益与特征筛选:
- 基本思想:选择那些特征对分类变量Y信息增益大,删除那些对分类无用的特征
-
- 能量规约:回归、聚类、采样、数据立方体聚集
- 数据压缩:使用变换
- 有损压缩 无损压缩
- 字符串压缩 音频/视频压缩
- 数量规约
- 维规约:小波分析、PCA、特征筛选
-
数据变换:最大最小归一化
- 最小-最大规范化: v ‘ = v − m i n A m a x A − m i n A ( n e w m a x A − n e w m i n A ) + n e w m i n A v^`=\frac{v-min_A}{max_A-min_A}(newmax_A-newmin_A)+newmin_A v‘=maxA−minAv−minA(newmaxA−newminA)+newminA
- z-score规范化: v ‘ = v − μ σ v^`=\frac{v-\mu}{\sigma} v‘=σv−μ
-
数据离散化
- 离散化(连续数据)
- 概念分层(标称数据)
- 分箱:分箱技术递归的用于结果划分
- 直方图分析:直方图分析方法递归的应用于每一部分,可以自动产生多级概念分层
- 聚类分析:将数据划分成簇,每个簇形成同一个概念层上的一个节点,每个簇可再分成多个子簇,形成子节点
- 基于信息熵的方法等