数据挖掘导论2

最新推荐文章于 2023-10-19 20:12:11 发布

人间的分贝

最新推荐文章于 2023-10-19 20:12:11 发布

阅读量164

点赞数

本文链接：https://blog.csdn.net/qq_44370441/article/details/111505227

版权

在这里插入图片描述

在这里插入图片描述

使决策树受到关注，成为机器学习主流技术的算法：ID3
最常用的决策树算法：C4.5
可用于回归任务的决策树算法：CART
基于决策树的强大算法：RF

信息增益
增益率
基尼指数

在这里插入图片描述

基本策略
1 预剪枝
2 后剪枝

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

将训练集划分成两个互斥的集合，一个用作训练集，一个用作测试集

将数据划分为k个大小相似的互斥子集，每次用K-1个子集作为训练集，余下的那个子集作为测试集，最后返回K个测试结果的均值

每次从具有m个样本的数据集D中抽取一个样本（有放回）放入D'中，这样经过m次，得到具有m个样本的数据集D'

在这里插入图片描述

目的是对单一学习器性能的提升
要求每个基学习器必须不同，有差异性
两种框架 袋装和提升

1 用自助法获得S个样本
2 用这些样本分别训练学习器
3 使用多数投票方式对未知样本进行分类

1 每个训练元组具有权重
2 串行的学习K个分类器
3 每学习一次，更新权重，使得其后的分类器更关注当前分类器分类错误的训练元组
4 对未知元组分类时，所有分类器进行具有权重的表决，权重为该分类器准确率的函数

在这里插入图片描述

关注