- 数据挖掘任务:聚类分析,关联分析,预测建模,异常检测
- 预测建模:
- 分类:预测离散变量
- 回归:预测连续变量
关联分析:旨在发现紧密相关的观测值群组
属性类型
- nominal标量 :标称值提供足够信息区分对象
- ordinal序数:序数性质提供信息确定对象序
- internal区间:值之间差有意义
- ratio比率:差和比率都有意义
非对称属性:非0值属性才是有效的
数据集一般特性:维度、稀疏性、分辨率
数据预处理
聚集
聚集归约数据,范围和标度转换,会丢失部分细节
- 维归约:创建新属性合并旧属性,或者选择旧属性子集(特征选择)
- 维灾难:维数增加,数据稀疏,分类准确率下降
- 主成分分析PCA(principal components analysis):原属性线性组合成新属性
奇异值分解(SVM)维归约
- 特征子集选择:去除冗余属性
- 特征子集产生的评估结果至少要与全部特征评估结果一样,甚至更好
特征加权:重要属性权值高
特征提取
由原始数据特征创建新特征
相似度
- 欧里几德距离:维度差平方和后开方
闽科夫斯基距离:维度差n次方和后开n次方
二元数据相似性
- 余弦相似度
广义jaccard系数
- 不纯度分析
- ID3
- C4.5:任一节点二元划分
CART:增益率划分
决策树特点
1.不要求任何先验假设,即不假定分类和属性服从一定概率分布
2.决策树代价小,未知样本分类快,时间复杂度取决于树的最大深度
3.决策树容易解释,简单数据集准确率也比较高
4.决策树对噪声的鲁棒性比较好
5.冗余属性不会对准确率造成影响
6.当数据节点记录数小于阈值又不纯净属于一类时,形成数据碎片,需要停止分裂
7.子树在决策树中可能重复
8.斜决策树允许决策涉及多个属性
9.构造归纳:由已有属性的算罗运算构造复合属性
10.不纯度度量方法对决策树性能影响比较小,剪枝影响比较大
决策树过拟合处理
- 先剪枝:不纯度增益低于阈值时停止扩展叶节点
- 后剪枝:新的叶节点替换子树,或者子树的主要分支替换子树
规则分类
规则集特点:
- 互斥:一条记录只能激发一条规则
- 穷举:规则集必须覆盖所有记录
- 有序:根据优先级排序
无序:多条规则触发投票
规则提取
规则提取的直接方法:顺序覆盖
规则增长策略:
- 一般到特殊:增加属性,直到增加属性不能提高规则正确性
特殊到一般:减少属性,泛化规则,开始覆盖反例停止
规则评估
RIPPER算法
- 复杂度随样例线性增长,适合分布不平衡
- 两类问题,以多数类为默认类,学习少数类规则,多类问题从不频繁类到频繁类学习
- 一般到特殊增加属性,覆盖反例时停止
- 从最后增加的属性逆向剪枝,当剪枝后p-n/p+n增加则剪枝,(p和n为确认集中正例和反例数)
- 规则覆盖的正例和反例都去除
规则提取的间接方法
- 决策树生成规则:根节点到叶节点的路径即为规则
- 删除属性进行剪枝,直到悲观误差不再改进
最近邻
- 消极分类,分类开销大
- 最近领基于局部信息,对噪声敏感
- 临近性度量和数据预处理很重要,否则很可能做出错误预测
- F1度量: 1/(1/p + 1/r)
ROC曲线(receiver operating characteristic)
真正率TPR沿y轴绘制,假正率FPR沿x轴绘制
关联规则
事务的宽度:事务中项的个数
项集支持度计数:
- 关联规则任务分解
- 频繁项集产生
规则产生
频繁集项产生
- 先验原理:一个项集频繁,其子项集一定频繁
支持度剪枝:项集非频繁,则项集与其超集均不频繁,均可剪枝
Apriori算法频繁集项生成
- fk-1 * f1 生成, 易产生重复频繁项
fk-1 * fk-1生成,前k-2项必须一样,且为频繁项集
基于k-1频繁项集生成k项频繁项集,基于支持度剪枝
置信度定理:
规则的产生
极大频繁项集:直接超集都不是频繁的
极大频繁项集可以推导出所有频繁集项的最小的项集的集合
闭频繁项集:直接超集都不具有和它相同支持度计数的频繁项集
聚类
k均值
二分k均值
簇最小化SSE的最佳质心是簇中各点均值
凝聚层次聚类(基于相似度)
- 单链:簇中任意两点距离最小值最为临近度,按距离连接,对异常点敏感
- 全链:簇中任意两点距离最大值最为临近度
- 组平均:簇中任意点对距离平均值做为临近度
Ward方法:两簇合并时导致的平方误差增量作为临近度
层次聚类问题
1、局部最优合并
2、不同大小簇的处理:
加权:平等对待所有簇
不加权:考虑每个簇的节点数
3、合并不可逆转,代价高