机器学习笔记

最新推荐文章于 2020-07-14 16:47:14 发布

colourgxk

最新推荐文章于 2020-07-14 16:47:14 发布

阅读量255

点赞数 1

文章标签：机器学习分类回归神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/colourgxk/article/details/99968502

版权

1、什么是过拟合，欠拟合

过拟合：当学习器把训练样本学得“太好”的时候，很可能已经把训练样本自身的一些特点当做了所有潜在样本都具有的一般性质，这样就会导致泛化性能下降。

欠拟合：对训练样本的一般性质尚未学好。

欠拟合的解决方法：在决策树学习中扩展分支，在神经网络学习中增加训练轮数等。

2、机器学习的模型选择：对候选模型的泛化误差进行评估，然后选择泛化误差最小的那个模型，然而我们无法直接获得泛化误差，而训练误差又由于过拟合现象的存在而不适合作为标准，那么就需要对模型进行评估和选择。

评估方法：引入测试集。将数据集分为训练集和测试集：留出法（hold out）：将数据集划分为两个互斥集合，交叉验证法，自助法。对泛化性能进行评估需要一个评价标准，即性能度量。因此模型的好坏是相对的，取决于算法和数据，还决定于任务需求。

3、机器学习中性能比较很复杂，并不单单是比较性能度量值的大小：

（1）希望比较的是泛化性能，然而通过试验评估方法获得的是测试集上的性能，两者对比结果未必相同。

（2）测试集上的性能与测试集本身的选择有很大关系，包括测试集的大小，测试样例的不同。

（3）机器学习算法本身具有随机性，即使用相同的参数在同一测试集上多次运行，其结果也会有不同。

那么引出性能比较的几种方法。

4、解释机器学习算法泛化性能的工具：偏差-方差分解

对测试样本,令 y_D 为在数据集中的标记，为的真实标记， f(x,D) 为训练集上学的模型在上的预测输出。

则对算法的期望泛化误差进行分解：

$E(f;D)=bias^2(x)+var(x)+\varepsilon ^2$

偏差 bias^2(x) 为期望输出与真实标记的差别： $bias^2(x)=(\bar{f}(x)-y)^2$

方差 var(x) 样本数相同的不同训练集产生的方差： $var(x)=\mathbb{E}_D[(f(x;D)-\bar{f}(x))^2]$

$\varepsilon^2$ 为噪声： $\varepsilon ^2=\mathbb{E}_D[(y_D-y)^2]$

其中 $\bar{f}(x)$ 为学习算法的期望预测： $\bar{f}(x)=\mathbb{E}_D[f(x;D)]$

偏差度量了学习算法的期望预测与真实结果的偏差程度，即刻画了学习算法本身的拟合能力；

方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的的影响；

噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。

偏差-方差分解说明：泛化性能是由学习算法的能力，数据的充分性以及学习任务本身的难度所共同决定的。

5、线性回归时，利用最小二乘法可解出多个 $\hat{w}$ ，选择哪个呢？常见的做法是引入正则化（即常见的降低过拟合方法）。

线性回归模型：预测值 f(x)=w^Tx+b 逼近真实标记，即： y=w^Tx+b 。

6、对数几率回归：一种分类学习方法。用线性回归模型的预测结果去逼近真实标记的对数几率，即：

$y=\frac{1}{1+e^{-(w^Tx+b)}}$ 可变形为：

$ln\frac{y}{1-y}=w^Tx+b$

対率回归模型最大化对数似然，即令每个样本属于其真实标记的概率越大越好：

$\l (w,b)=\sum _{i=1}^{m}lnp(y_i|x_i;w,b)$

其中， $p(y_i|x_i;w,b)=y_ip_1(\hat{x}_i;\beta )+(1-y_i)p_0(\hat{x}_i;\beta )$

则：等价为最小化： $\l(\beta )=\sum _{i=1}^{m}(-y_i\beta ^T\hat{x}_i+ln(1+e^{\beta ^T\hat{x}_i}))$

上式根据凸优化理论，如梯度下降法、牛顿法等可求到其最优解，得到一个关于 $\beta$ 的迭代更新公式。

7、线性判别分析LDA：Fisher判别分析：将样例投影到一条直线上，使得同类样例的投影点尽可能接近，异类样例的投影点尽可能远离。

当两类数据同先验，满足高斯分布且协方差相等时，LDA可达到最优分类。

8、多分类学习的基本思路：对问题进行拆解，然后为拆出的每个二分类任务训练一个分类器；测试时，对这些分类器的预测结果进行集成以获得最终的多分类结果。

拆分：一对一，一对其余，多对多。

一对一：将N个类别两两配对，产生 N(N-1)/2 个分类器，可得到个分类结果，最终结果通过投票产生。

一对其余：将一个类的样例作为正例，其他类的样例作为反例，产生N个分类器，在测试时若有仅有一个分类器预测为正类，则对应的类别标记作为最终分类结果。若有多个分类器预测为正类，则考虑各分类器的预测置信度，选择置信度最大的类别标记作为分类结果。

时间和存储花销两方面分析一对一和一对其余。

9、若不同类别的训练样例数目差别很大，则出现类别不平衡问题。

对数几率函数：

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记

1、什么是过拟合，欠拟合过拟合：当学习器把训练样本学得“太好”的时候，很可能已经把训练样本自身的一些特点当做了所有潜在样本都具有的一般性质，这样就会导致泛化性能下降。欠拟合：对训练样本的一般性质尚未学好。欠拟合的解决方法：在决策树学习中扩展分支，在神经网络学习中增加训练轮数等。2、机器学习的模型选择：对候选模型的泛化误差进行评估，然后选择泛化误差...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。