数据挖掘导论 5.6&5.7

第五章 分类:其他技术

5.6 组合方法

1. 构造组合分类器的原理和方法

  • 基分类器需要互相独立,且比随机猜测要好。
  • 构建组合分类器的方法:
    • 通过处理训练数据集:根据抽样分布对原始数据重新采样
      • 装袋(bagging)、提升(boosting)
    • 通过处理输入特征:选择输入特征的子集来形成每个训练集
      • 随机森林
    • 通过处理类标号(变换为二类问题):
      • 错误-纠正输出编码
    • 通过处理学习算法
  • 组合方法对于不稳定的分类器效果较好(决策树、ANN)

2. 偏倚-方差分解

  • 分析预测模型的预测误差的形式化方法
  • 在这里插入图片描述
  • 偏倚:分类器对它的决策边界性质所做的假定越强,分类器的偏倚就越大。
    • 更下的树,假定越强

3. 组合方法技术

  • 装袋

    • 通过减少基分类器的方差来改善泛化误差
    • 装袋有助于提升不稳定的基分类器
  • 提升

    • 迭代地改变训练样本的分布,提高误分类样本的权值,降低正确分类的样本的权重
    • 通过聚集每个提升轮得到的基分类
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据挖掘导论》是由段磊编写的一本关于数据挖掘的入门教材。本书系统地介绍了数据挖掘的基本概念、方法和应用领域。在300字中,我们可以简要回答以下几个问题: 该书的内容主要包括哪些方面? 《数据挖掘导论》主要内容包括数据挖掘的基本概念、数据预处理数据挖掘分类与预测、关联分析、聚类分析、异常检测等几个方面。它从理论和实践相结合的角度,系统地介绍了数据挖掘的核心内容。 该书适合哪些读者阅读? 本书适合对数据挖掘感兴趣的各类读者,尤其是新手。无论是学生、研究者还是从业者,都可以通过阅读本书掌握数据挖掘的基本理论和方法。 该书的特点有哪些? 《数据挖掘导论》具有以下几个特点:首先,该书详细地介绍了数据挖掘的基本理论和常用的方法,通过实例和案例分析,将理论与实践相结合,有助于读者更好地理解数据挖掘的核心概念和技术。其次,该书以通俗易懂的语言编写,注重启发读者的思维,通过问题引导和讨论,激活读者的学习兴趣。再次,该书还提供了丰富的学习资源,包括习题、编程实践和相关参考文献,方便读者巩固所学知识。 总结: 《数据挖掘导论》是一本介绍数据挖掘基本理论和方法的教材,适合数据挖掘领域的初学者阅读。它通过通俗易懂的语言、实例和案例分析,帮助读者掌握数据挖掘的核心概念和技术。该书还提供了丰富的学习资源,方便读者巩固所学知识。无论是学生、研究者还是从业者都可以通过阅读本书系统地学习数据挖掘的基础知识。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值