- 博客(3)
- 资源 (7)
- 收藏
- 关注
原创 机器学习笔记(6)——C4.5决策树中的剪枝处理和Python实现
1. 为什么要剪枝还记得决策树的构造过程吗?为了尽可能正确分类训练样本,节点的划分过程会不断重复直到不能再分,这样就可能对训练样本学习的“太好”了,把训练样本的一些特点当做所有数据都具有的一般性质,从而导致过拟合。这时就可以通过剪枝处理去掉一些分支来降低过拟合的风险。剪枝的基本策略有“预剪枝”(prepruning)和“后剪枝”(post-pruning):预剪枝是在决策树的生成过程中...
2018-10-26 14:21:27 20680 61
原创 机器学习笔记(5)——C4.5决策树中的连续值处理和Python实现
在ID3决策树算法中,我们实现了基于离散属性的决策树构造。C4.5决策树在划分属性选择、连续值、缺失值、剪枝等几方面做了改进,内容较多,今天我们专门讨论连续值的处理和Python实现。1. 连续属性离散化C4.5算法中策略是采用二分法将连续属性离散化处理:假定样本集D的连续属性有n个不同的取值,对这些值从小到大排序,得到属性值的集合。把区间的中位点作为候选划分点,于是得到包含n-1个...
2018-10-18 17:05:20 23395 135
原创 Python学习笔记(5)——字典的定义和操作方法
1. 什么是字典字典是Python中唯一的一种内置映射(mapping)类型的数据结构,就像日常生活中的字典一样,可以轻松的找到特定的单词(键),以获悉其定义(值)。字典由键(key)和其相应的值(value)组成,键-值对成为项(item)。例如:dataType = {'string': '字符串', 'list': '列表', 'dict': '字典'}在之前的文章ID3决策树...
2018-10-11 15:30:28 1875
HCluster.py
2020-01-02
Logistic算法(随机梯度下降法)的Python代码和数据样本
2019-03-12
Logistic回归算法的Python代码和数据样本
2019-01-28
C4.5决策树算法的Python代码和数据样本
2018-12-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人