1.6聚类及其他数据挖掘问题

  • Clustering(聚集、分类归并)

    • 聚类特点:把items分成一组一组的;例如以上黑点分为三个Cluster
    • 聚类依据:因为同一个group里面的点数据比较接相似,所以距离比较接近,不同group差异比较大
    • 距离参数、距离度量(distance metrics)
      • 定义:用于衡量点之间的距离远近、是否相似
      • 方法:
        • 欧式距离(Euclidian Diatance):最常用的空间中两点之间的距离计算

        • 曼哈顿距离(Manhattan Distance)
        • 马氏距离(Mahalanobis Diatance)
    • 算法层面:
      • k-均值(K-Means)
        • (1)K值:即要将数据分为几个簇;
        • (2) 质心:可理解为均值,即向量各个维度取平均值,这个是我们聚类算法一个重要的指标;
        • (3) 欧式距离
      • Sequential Leader
      • Affinity Propagation
    • (无监督的聚类的)应用
      • 客户划分
      • 图像分割
      • 社交网络分析
    • 注意:
      • 分类(classification):supervised learning(监督学习,有标签的)
      • 聚类(clustering):unsupervised learning(非监督学习,无标签的)
        • 没有事先人为的标签(例如不区分好人、坏人;只会进行比如体型相似的人聚在一起)
    • Hierarchical Clustering(层次聚类)

      • 同一个group中的items通过不同层次分类聚在一起
  • 关联规则(Association Rule)

    • 例如从购物中产生的交易(Transaction),购物小票中挖掘一些有趣的东西:买牛奶面包的人就会买黄油
  • 回归(Regression)

    • 简单的线性回归(Linear Regression):也可能是多项式的(Polinomio),线性指的是β与x之间的关系是线性的
    • 线性回归的过拟合问题

      • 模型不够强大,误差高
      • 适中
      • 过度学习,过拟合,误差度为0
  • 可视化(可解释性)

    • 意义
      • 将原(高维)数据可视化、使之更利于分析使用何种算法、模型
      • 将处理结果可视化,使之更利于解释、分享、使用
    • 应用
      • 性能仪表板(Performance Dashboard)

        • 现金流、销售额等等以这样的方式呈现
    • 可视化软件推荐

      • 在线数据可视化工具
        • Google Chart API
        • FLOT
        • Visual.ly
      • GUI控制
        • Crossfiler
        • JavaScript库Tangle
      • 等等
  • 数据预处理

    • 特点:最麻烦、最有挑战性
    • 避免:garbage in garbage out
    • 存在问题:
      • 属性值缺失
      • 不同的编码/命名方案
      • 不可行的值
      • 数据不一致
      • 离群值
    • 数据质量评价:
      • 准确性
      • 完备性
      • 一致性
      • 可信度
      • 可解释性
      • 时效性
    • 数据处理过程

      • 数据清洗
        • 填充缺失值
        • 修正不一致数据
        • 识别离群值及噪声数据
      • 数据集成
      • 数据转换
      • 数据简化
  • 21
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值