数据挖掘导论2

数据挖掘导论2

5.分类和预测

5.1.基本概念

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

5.2决策树

在这里插入图片描述

使决策树受到关注,成为机器学习主流技术的算法:ID3
最常用的决策树算法:C4.5
可用于回归任务的决策树算法:CART
基于决策树的强大算法:RF
  • 属性选择度量是一种选择分裂准则,将给定类标号的训练元组最好的进行划分的方法
  • 常用的属性选择度量
信息增益
增益率
基尼指数
  • 信息增益(ID3算法中使用)

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

基本策略
1 预剪枝
2 后剪枝

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述在这里插入图片描述

5.3贝叶斯分类

在这里插入图片描述

5.4逻辑回归

  • 逻辑回归是一种用于解决二分类问题的机器学习方法

在这里插入图片描述

5.5模型评估方法

  • 留出法
将训练集划分成两个互斥的集合,一个用作训练集,一个用作测试集
  • 交叉验证法
将数据划分为k个大小相似的互斥子集,每次用K-1个子集作为训练集,余下的那个子集作为测试集,最后返回K个测试结果的均值
  • 自助法
每次从具有m个样本的数据集D中抽取一个样本(有放回)放入D'中,这样经过m次,得到具有m个样本的数据集D'
  • 基本指标-准确率
  • 查准率与查全率

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

5.6集成分类方法

  • 集成学习通过结合多个学习器完成学习任务,也成为多分类系统
目的是对单一学习器性能的提升
要求每个基学习器必须不同,有差异性
两种框架 袋装和提升
  • 袋装方法
  • 利用不同方法保证基学习器的差异性
1 用自助法获得S个样本
2 用这些样本分别训练学习器
3 使用多数投票方式对未知样本进行分类
  • 提升方法
1 每个训练元组具有权重
2 串行的学习K个分类器
3 每学习一次,更新权重,使得其后的分类器更关注当前分类器分类错误的训练元组
4 对未知元组分类时,所有分类器进行具有权重的表决,权重为该分类器准确率的函数

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值