机器学习第一章&第二章总结

1、机器学习:是关于在计算机上从数据中产生“模型”的算法,即“学习算法”

2、算法:一个计算的过程,一个解决问题的方法。

3、经验误差:在m个样本中有a个样本分类错误,则错误率为:E=a/m

4、过拟合:学习器将训练样本学的“太好”,很可能将训练样本自身的特点当作了所有潜在的样本都会具有的一般性质,这样就会导致泛化能力的下降。

注:过拟合是无法彻底避免的,我们只能缓解。

5、欠拟合:指对训练样本的一般性质尚未学好。

6、评估法:1⃣️留出法 2⃣️交叉验证法 3⃣️自助法 4⃣️调参与最终模型

原理:通常使用一个“测试集”来测试学习器对新样本的判别能力,然后以测试集上的测试误差作为泛化误差的近似。

1⃣️留出法:

直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,即D=S+T,S交T=空集,在S上训练出模型后,用T来评估其测试误差,作为泛化误差的估计。

缺点:

不同的划分方式将导致不同的训练/测试集,相应的,模型评估的结果也会有差别,因此,单次使用留出法得到的估计结果往往不够稳定可靠。

所以,在使用留出法时,一般要采用若干次随机划分、重复进行实验评估后,取平均值作为留出法的评估结果。

2⃣️交叉验证法(k折交叉验证)

将数据集D划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性,即从D中通过分层采样得到,然后,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集,这样就可以获得k组训练/测试集,从而可进行k次训练和测试,最终返回这k个测试结果的均值。

特例:留一法

m个样本划分为m个子集,每个子集包含一个样本,训练集与初始数据集相比只少了一个样本。

故,留一法的评估结果往往被认为比较准确。

缺点:

在数据集比较大时,计算量大。

3⃣️自助法

给定包含m个样本的数据集D,对它进行m次有放回的抽样,得到样本集D’,在样本中有一部分没被抽到的概率是36.8%,我们将D'用作训练集,D-D'用作测试集,这样实际评估的模型与期望评估的模型都使用m个训练样本,但仍有三分之一的,没有在训练集中出现的样本用于测试,这样的测试结果亦称“包外估计”

优点:

对数据集较小,难以有效划分训练集/测试集时很有用,对集成学习有很大的好处

缺点:

自助法产生的数据集改变了初始数据集的分布,会引入估计偏差。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值