机器学习听课笔记5.19

一、对率回归(也叫sigmod函数)

lny/1-y = thetaTx
首先先行表示,然后再分类,可以用于线性可分的问题

二、决策树

分类平面是非线性的,是启发的(不一定寻找到最优解)

1、ID3

思想

在这里插入图片描述
每个属性单独考察,看看那个合适做根节点,重复过程。

伪代码

在这里插入图片描述
如何选择属性X?
纯度大,熵小

熵表示不确定性,与不确定性有关的因素:
在这里插入图片描述
特点
在这里插入图片描述
在这里插入图片描述
k的数量表示i数量,pk代表概率代表,-log表示不确定度。

信息增益

对于节点a来说,可以取值有v个。如果在a上的信息上越小,信息增益越大。
在这里插入图片描述

如果用编号作为节点,信息增益很大。隐含意义:偏好对于属性可选值多的

2、C4.5

在这里插入图片描述

3、过拟合

决策树里的过拟合是指在相同的性能下,枝多的。
偏差方差
在这里插入图片描述
在这里插入图片描述
两种过拟合的方法
预剪枝,后剪枝
在这里插入图片描述
两者对比

4、连续值处理

利用二分法对连续属性离散化

三、集成学习

投票输出,所以一般学习器数目是单数

1、Boosting:强依赖,串行

典型:AdaBoost(Adaptive Boosting)
在这里插入图片描述
因此可以看到前面的分类器都是辅助的,最后一个才是最关键的,但是都是弱分类器。

2、Bagging和随机森林:没有依赖,并行

Bagging是有放回抽样,得到m个样本的采样集,可以得到T个这样的训练集,最后投票。

从这个图来看,不仅样本随机,选用的属性也随机,这也从侧面改变了样本分布。因此可以降低过拟合。
在这里插入图片描述
影响
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值