数据挖掘导论 之 分类

本文详细介绍了数据挖掘中的分类技术,包括决策树的建立过程、模型过拟合的原因、分类器评估标准以及各种分类算法如最近邻、贝叶斯和支持向量机的原理与应用。
摘要由CSDN通过智能技术生成

这篇总结一下《数据挖掘导论》中的分类部分:

分类

  • 含义:确定对象属于哪个预定义的目标类。通过学习得到一个目标函数(target function)f,把每个属性集x映射到一个预先定义的类标号y。
  • 类标号:离散属性(区别于回归,回归的目标属性是连续的)
  • 作用:
    • 描述性建模:作为解释性的工具,区分不同类的对象。
    • 预测性建模:预测未知记录的类标号。
  • 一般方法:用一种学习算法(learning algorithm)确定分类模型,该模型能够很好的拟合输入数据中类标号和属性集之间的联系。学习算法得到的模型不仅要很好地拟合输入数据,还要能正确的预测未知样本的类标号。
  • 性能评估:混淆矩阵(confusion matrix)

决策树

  • 结构:由结点和有向边组成的层次结构
  • 决策树的建立(Hunt 算法)
    • 方法:通过将训练记录相继划分成较纯的子集,以递归的方式建立决策树。
      • 如果与结点t相关联的训练集(Dt)中所有记录都属于同一个类y,则t是叶节点,用y_t标志。
      • 如果Dt中包含属于多个类的记录,则选择一个属性测试条件(attribute test condition),将记录划分成较小的子集。对于测试条件的每个输出,创建一个子女结点,并根据测试结果将Dt中的记录分布到子女结点中。然后对每个子女结点,递归的调用该算法。
    • 选择最佳划分:根据划分后子女结点不纯性的程度,不纯的程度越低,类分布就越倾斜。
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值