数据挖掘导论2
5.分类和预测
5.1.基本概念
5.2决策树
使决策树受到关注,成为机器学习主流技术的算法:ID3
最常用的决策树算法:C4.5
可用于回归任务的决策树算法:CART
基于决策树的强大算法:RF
- 属性选择度量是一种选择分裂准则,将给定类标号的训练元组最好的进行划分的方法
- 常用的属性选择度量
信息增益
增益率
基尼指数
- 信息增益(ID3算法中使用)
基本策略
1 预剪枝
2 后剪枝
5.3贝叶斯分类
5.4逻辑回归
- 逻辑回归是一种用于解决二分类问题的机器学习方法
5.5模型评估方法
- 留出法
将训练集划分成两个互斥的集合,一个用作训练集,一个用作测试集
- 交叉验证法
将数据划分为k个大小相似的互斥子集,每次用K-1个子集作为训练集,余下的那个子集作为测试集,最后返回K个测试结果的均值
- 自助法
每次从具有m个样本的数据集D中抽取一个样本(有放回)放入D'中,这样经过m次,得到具有m个样本的数据集D'
- 基本指标-准确率
- 查准率与查全率
5.6集成分类方法
- 集成学习通过结合多个学习器完成学习任务,也成为多分类系统
目的是对单一学习器性能的提升
要求每个基学习器必须不同,有差异性
两种框架 袋装和提升
- 袋装方法
- 利用不同方法保证基学习器的差异性
1 用自助法获得S个样本
2 用这些样本分别训练学习器
3 使用多数投票方式对未知样本进行分类
- 提升方法
1 每个训练元组具有权重
2 串行的学习K个分类器
3 每学习一次,更新权重,使得其后的分类器更关注当前分类器分类错误的训练元组
4 对未知元组分类时,所有分类器进行具有权重的表决,权重为该分类器准确率的函数