数据挖掘导论(部分)

  • 数据挖掘任务:聚类分析,关联分析,预测建模,异常检测
  • 预测建模:
    • 分类:预测离散变量
    • 回归:预测连续变量
  • 关联分析:旨在发现紧密相关的观测值群组

    属性类型

  • nominal标量 :标称值提供足够信息区分对象
  • ordinal序数:序数性质提供信息确定对象序
  • internal区间:值之间差有意义
  • ratio比率:差和比率都有意义
  • 非对称属性:非0值属性才是有效的

  • 数据集一般特性:维度、稀疏性、分辨率

数据预处理

  • 聚集

    聚集归约数据,范围和标度转换,会丢失部分细节

  • 维归约:创建新属性合并旧属性,或者选择旧属性子集(特征选择)
  • 维灾难:维数增加,数据稀疏,分类准确率下降
  • 主成分分析PCA(principal components analysis):原属性线性组合成新属性
  • 奇异值分解(SVM)维归约

  • 特征子集选择:去除冗余属性
  • 特征子集产生的评估结果至少要与全部特征评估结果一样,甚至更好
  • 特征加权:重要属性权值高

    特征提取
  • 由原始数据特征创建新特征

    相似度
  • 欧里几德距离:维度差平方和后开方
  • 闽科夫斯基距离:维度差n次方和后开n次方

    二元数据相似性

    简单相似系数
    jaccard系数
  • 余弦相似度
    余弦相似度
  • 广义jaccard系数
    广义jacard系数和相关度

  • 不纯度分析
    不存度分析
    信息增益
    悲观误差估计:增加节点数罚项
  • ID3
  • C4.5:任一节点二元划分
  • CART:增益率划分

    决策树特点

    1.不要求任何先验假设,即不假定分类和属性服从一定概率分布
    2.决策树代价小,未知样本分类快,时间复杂度取决于树的最大深度
    3.决策树容易解释,简单数据集准确率也比较高
    4.决策树对噪声的鲁棒性比较好
    5.冗余属性不会对准确率造成影响
    6.当数据节点记录数小于阈值又不纯净属于一类时,形成数据碎片,需要停止分裂
    7.子树在决策树中可能重复
    8.斜决策树允许决策涉及多个属性
    9.构造归纳:由已有属性的算罗运算构造复合属性
    10.不纯度度量方法对决策树性能影响比较小,剪枝影响比较大

决策树过拟合处理

  • 先剪枝:不纯度增益低于阈值时停止扩展叶节点
  • 后剪枝:新的叶节点替换子树,或者子树的主要分支替换子树

规则分类

规则集特点:

  • 互斥:一条记录只能激发一条规则
  • 穷举:规则集必须覆盖所有记录
  • 有序:根据优先级排序
  • 无序:多条规则触发投票

    规则提取
  • 规则提取的直接方法:顺序覆盖
    顺序覆盖

    规则增长策略:
  • 一般到特殊:增加属性,直到增加属性不能提高规则正确性
  • 特殊到一般:减少属性,泛化规则,开始覆盖反例停止

    规则评估

    图片标题
    图片标题

RIPPER算法

  • 复杂度随样例线性增长,适合分布不平衡
  • 两类问题,以多数类为默认类,学习少数类规则,多类问题从不频繁类到频繁类学习
  • 一般到特殊增加属性,覆盖反例时停止
  • 从最后增加的属性逆向剪枝,当剪枝后p-n/p+n增加则剪枝,(p和n为确认集中正例和反例数)
  • 规则覆盖的正例和反例都去除
规则提取的间接方法
  • 决策树生成规则:根节点到叶节点的路径即为规则
  • 删除属性进行剪枝,直到悲观误差不再改进

最近邻

  • 消极分类,分类开销大
  • 最近领基于局部信息,对噪声敏感
  • 临近性度量和数据预处理很重要,否则很可能做出错误预测
    装袋
    adaboost
    图片标题
    不平衡度量
  • F1度量: 1/(1/p + 1/r)
  • ROC曲线(receiver operating characteristic)

    真正率TPR沿y轴绘制,假正率FPR沿x轴绘制

关联规则

事务的宽度:事务中项的个数
项集支持度计数:
项集支持度
关联规则

  • 关联规则任务分解
    • 频繁项集产生
    • 规则产生

      频繁集项产生
  • 先验原理:一个项集频繁,其子项集一定频繁
  • 支持度剪枝:项集非频繁,则项集与其超集均不频繁,均可剪枝

    Apriori算法频繁集项生成

    频繁集项生成
  • fk-1 * f1 生成, 易产生重复频繁项
  • fk-1 * fk-1生成,前k-2项必须一样,且为频繁项集

    基于k-1频繁项集生成k项频繁项集,基于支持度剪枝

置信度定理:
置信度剪枝

规则的产生

规则产生

极大频繁项集:直接超集都不是频繁的
极大频繁项集可以推导出所有频繁集项的最小的项集的集合
闭频繁项集:直接超集都不具有和它相同支持度计数的频繁项集

聚类

k均值
  • 二分k均值
    二分k均值

    簇最小化SSE的最佳质心是簇中各点均值

凝聚层次聚类(基于相似度)

凝聚层次

  • 单链:簇中任意两点距离最小值最为临近度,按距离连接,对异常点敏感
  • 全链:簇中任意两点距离最大值最为临近度
  • 组平均:簇中任意点对距离平均值做为临近度
  • Ward方法:两簇合并时导致的平方误差增量作为临近度

    层次聚类问题
    1、局部最优合并
    2、不同大小簇的处理:
    加权:平等对待所有簇
    不加权:考虑每个簇的节点数
    3、合并不可逆转,代价高

DBSCAN(基于密度聚类)

点分类
图片标题

转载于:https://www.cnblogs.com/zeroArn/p/6682847.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值