数据挖掘导论（部分）

最新推荐文章于 2022-06-09 20:42:54 发布

weixin_30432007

最新推荐文章于 2022-06-09 20:42:54 发布

阅读量289

点赞数

文章标签：数据结构与算法人工智能

原文链接：http://www.cnblogs.com/zeroArn/p/6682847.html

版权

数据挖掘任务：聚类分析，关联分析，预测建模，异常检测
预测建模：
- 分类：预测离散变量
- 回归：预测连续变量
关联分析：旨在发现紧密相关的观测值群组

属性类型
nominal标量：标称值提供足够信息区分对象
ordinal序数：序数性质提供信息确定对象序
internal区间：值之间差有意义
ratio比率：差和比率都有意义
非对称属性：非0值属性才是有效的
数据集一般特性：维度、稀疏性、分辨率

数据预处理

聚集

聚集归约数据，范围和标度转换，会丢失部分细节
维归约：创建新属性合并旧属性，或者选择旧属性子集（特征选择）
维灾难：维数增加，数据稀疏，分类准确率下降
主成分分析PCA（principal components analysis）:原属性线性组合成新属性
奇异值分解(SVM)维归约
特征子集选择：去除冗余属性
特征子集产生的评估结果至少要与全部特征评估结果一样，甚至更好
特征加权：重要属性权值高

特征提取
由原始数据特征创建新特征

相似度
欧里几德距离：维度差平方和后开方
闽科夫斯基距离：维度差n次方和后开n次方

二元数据相似性
余弦相似度
广义jaccard系数
不纯度分析
ID3
C4.5:任一节点二元划分
CART：增益率划分

决策树特点

1.不要求任何先验假设，即不假定分类和属性服从一定概率分布
2.决策树代价小，未知样本分类快，时间复杂度取决于树的最大深度
3.决策树容易解释，简单数据集准确率也比较高
4.决策树对噪声的鲁棒性比较好
5.冗余属性不会对准确率造成影响
6.当数据节点记录数小于阈值又不纯净属于一类时，形成数据碎片，需要停止分裂
7.子树在决策树中可能重复
8.斜决策树允许决策涉及多个属性
9.构造归纳：由已有属性的算罗运算构造复合属性
10.不纯度度量方法对决策树性能影响比较小，剪枝影响比较大

决策树过拟合处理

先剪枝：不纯度增益低于阈值时停止扩展叶节点
后剪枝：新的叶节点替换子树，或者子树的主要分支替换子树

规则分类

规则集特点：

互斥：一条记录只能激发一条规则
穷举：规则集必须覆盖所有记录
有序：根据优先级排序
无序：多条规则触发投票

规则提取
规则提取的直接方法：顺序覆盖

规则增长策略:
一般到特殊：增加属性，直到增加属性不能提高规则正确性
特殊到一般：减少属性，泛化规则，开始覆盖反例停止

规则评估

RIPPER算法

复杂度随样例线性增长，适合分布不平衡
两类问题，以多数类为默认类，学习少数类规则，多类问题从不频繁类到频繁类学习
一般到特殊增加属性，覆盖反例时停止
从最后增加的属性逆向剪枝，当剪枝后p-n/p+n增加则剪枝，（p和n为确认集中正例和反例数）
规则覆盖的正例和反例都去除

规则提取的间接方法

决策树生成规则：根节点到叶节点的路径即为规则
删除属性进行剪枝，直到悲观误差不再改进

最近邻

消极分类，分类开销大
最近领基于局部信息，对噪声敏感
临近性度量和数据预处理很重要，否则很可能做出错误预测
F1度量： 1/（1/p + 1/r）
ROC曲线（receiver operating characteristic）

真正率TPR沿y轴绘制，假正率FPR沿x轴绘制

关联规则

事务的宽度：事务中项的个数
项集支持度计数：

关联规则任务分解
- 频繁项集产生
- 规则产生
  
  频繁集项产生
先验原理：一个项集频繁，其子项集一定频繁
支持度剪枝：项集非频繁，则项集与其超集均不频繁，均可剪枝

Apriori算法频繁集项生成
fk-1 * f1 生成，易产生重复频繁项
fk-1 * fk-1生成，前k-2项必须一样，且为频繁项集

基于k-1频繁项集生成k项频繁项集，基于支持度剪枝

置信度定理：
置信度剪枝

规则的产生

规则产生

极大频繁项集：直接超集都不是频繁的
极大频繁项集可以推导出所有频繁集项的最小的项集的集合
闭频繁项集：直接超集都不具有和它相同支持度计数的频繁项集

聚类

k均值

二分k均值

簇最小化SSE的最佳质心是簇中各点均值

凝聚层次聚类（基于相似度）

凝聚层次

单链：簇中任意两点距离最小值最为临近度，按距离连接，对异常点敏感
全链：簇中任意两点距离最大值最为临近度
组平均：簇中任意点对距离平均值做为临近度
Ward方法：两簇合并时导致的平方误差增量作为临近度

层次聚类问题
1、局部最优合并
2、不同大小簇的处理：
加权：平等对待所有簇
不加权：考虑每个簇的节点数
3、合并不可逆转，代价高

DBSCAN(基于密度聚类)

点分类
图片标题

转载于:https://www.cnblogs.com/zeroArn/p/6682847.html

weixin_30432007

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。