排序:
默认
按更新时间
按访问量

通俗讲清楚为什么使用信息熵增益比而不是信息熵增益?

来举个简单的例子: 数据集D(出去玩是标签) A代表属性,A=心情、天气 心情 天气 出去玩 好 晴朗 玩 不好 下雨 不玩 不好 刮风 不玩 好了 ,现在建立决策树,根节点是啥? 第一种方式(信息熵增益): 令A=天气 总熵S(D)=−13log213−23log2...

2018-10-13 21:49:38

阅读数:4

评论数:0

ID3的REP(Reduced Error Pruning)剪枝代码详细解释+周志华《机器学习》决策树图4.5、图4.6、图4.7绘制

处理数据对象:离散型数据 信息计算方式:熵 数据集:西瓜数据集2.0共17条数据 训练集(用来建立决策树):西瓜数据集2.0中的第1,2,3,6,7,10,14,15,16,17,4 请注意,书上说是10条,其实是上面列出的11条。 验证集(用来对决策树剪枝):西瓜数据集2.0中的5,8,9,11...

2018-10-13 18:42:48

阅读数:17

评论数:0

周志華《機器學習》圖4.4和图4.9繪制(轉載+增加熵顯示功能)

代碼來自參考鏈接: https://blog.csdn.net/leafage_m/article/details/79629074 本文的貢獻是: ①修正參考鏈接中,算法第3種情況中的投票問題的相關代碼, 原文代碼函數makeTreeFull有誤,會導致生成图4.4的&a...

2018-10-12 15:28:28

阅读数:13

评论数:0

ID3决策树中连续值的处理+周志华《機器學習》图4.8和图4.10绘制

转载自 https://blog.csdn.net/Leafage_M/article/details/80137305 用一句话总结这篇博客的内容就是: 对于当前n条数据,相邻求平均值,得到n-1个分割值,要点如下: ①连续数值特征的熵计算就是对上面的n-1个分割值不停尝试, 尝试得到最佳分割值...

2018-10-12 14:37:07

阅读数:11

评论数:0

周志华《机器学习》决策树图4.5勘误

根据书上的截图,我们知道,这个图4.5是根据表4.2的训练集生成的,也就是说,没有选用全部的数据集, 并且上述提到使用的信息增益,一般情况下,信息增益我们通常指的是Entropy,而不是Gini 表4.2如下: 图4.5如下: 下面开始细致的分析: 这个图4.5有10个叶子节点,所以必须有至...

2018-10-08 15:02:10

阅读数:41

评论数:0

sklearn没有实现ID3算法

https://stackoverflow.com/questions/32277562/how-to-set-up-id3-algorith-in-scikit-learn http://scikit-learn.org/stable/modules/tree.html#tree-algorit...

2018-10-06 20:47:28

阅读数:22

评论数:0

《统计学习方法》P59决策树绘制-sklearn版本

原始数据集见: https://blog.csdn.net/ruggier/article/details/78756447 这个数据集的意思是: 因为银行怕贷款申请者还不起贷款,所以要判断贷款者的各种情况,以便绝对是否对贷款申请者发放贷款。 因为使用sklearn需要数字类型的数据,不能是字符串...

2018-10-06 15:40:54

阅读数:23

评论数:0

统计学习方法第四章课后习题(转载+重新排版+自己解读)

4.1 用极大似然估计法推导朴素贝叶斯法中的先验概率估计公式(4.8)和条件概率估计公式(4.9) ################################################## 首先是(4.8) P(Y=ck)=∑i=1NI(yi=ck)NP({Y=c_k})=\frac ...

2018-10-03 19:19:29

阅读数:28

评论数:0

统计学习方法-第二章课后习题答案整理

2.1Minsky和Papert指出: 感知机因为是线性模型, 所以不能表示复杂的函数,如异或。 验证感知机为什么不能表示异或 参考链接: https://blog.csdn.net/yangfeisc/article/details/45486067 2.2,换下数据即可,具体代码实现参考: h...

2018-10-02 23:09:20

阅读数:30

评论数:0

统计学习方法例2.1实现(转)

对应李航《统计学习方法》 P29的 例2.1 # -*- coding: utf-8 -*- import sys reload(sys) sys.setdefaultencoding('utf-8') # @Author: appleyuchi # @Date: 2018-10-02 21:...

2018-10-02 21:58:03

阅读数:26

评论数:0

李航第一章课后习题答案

统计学习方法的三要素是模型、策略、算法。 伯努利模型是定义在取值为0与1的随机变量上的概率分布。 统计学分为两派:经典统计学派和贝叶斯统计学派。两者的不同主要是,经典统计学派认为模型已定,参数未知,参数是固定的,只是还不知道;贝叶斯统计学派是通过观察到的现象对概率分布中的主观认定不断进行修正。 极...

2018-10-02 19:01:24

阅读数:36

评论数:0

Gram矩阵计算实例

一开始没搞明白具体咋计算,后来经人指点,记录下: matlab代码如下: ’ 代表向量的转置 x1=[3,3]', x2=[4,3]', x3=[1,1]', G=[x1'*x1,x1'*x2,x1'*x3; x2'*x1,x2'*x2,x2'*x3; x3'*x1,x3...

2017-10-07 16:59:46

阅读数:4164

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭