西瓜书总结与回顾（一）------体系与方法

最新推荐文章于 2022-06-14 17:05:11 发布

f701872

最新推荐文章于 2022-06-14 17:05:11 发布

阅读量1.1k

点赞数 1

本文链接：https://blog.csdn.net/f701872/article/details/78006849

版权

新手，求指导！

西瓜书总结与回顾（一）------体系与方法。

总结得来，机器学习是通过对数据的学习，对未来作出预测和判断的过程。其中对于数据的定义则更为广泛包括文字，语音，图像等等，并不局限于数字。

基本概念：输入，输出和特征。通常我们对算法“喂”一些数据，这就是输入。通过算法的拟合，会把输入转化为输出，一般的输出有模型，参数，可能还有预测结果和预测表及等等。还有一个重要的概念是特征，特征是指数据样本的维度，或者属性，比如一个人作为样本，特征就包括身高，体重，年龄，性别等等，很多带有这样特征的样本组合在一起就是输入。

一个学习的过程一般为，针对数据特征以及所有解决的问题选择适当的算法和适当的参数得出模型结果，但是我们这个并不知道模型的好坏，所以需要对模型做出评价。这时候就需要做交叉验证，通过把数据划分为训练集和验证集，一验证集的结果来衡量模型的优劣，以至于反推回去重新选择算法，或者调整参数。最后用最合适的算法和最合适的参数作为最后的输出结果。在整个过程中就会涉及交叉验证的方法，衡量模型优劣的指标，以及如何产生一个在验证集上表现好的模型。

1. 交叉验证的方法：留出法，把已知数据按照比例分为训练集和验证集；交叉验证，把数据集分为K分，每次用K-1作为训练集，剩一份作为验证，重复K此，最后用K次的平均；自助法，从数据集中抽取一部分数据，作为验证集，训练集还是整个数据集，重复多次。

2. 衡量模型的优劣。在线性回归中，我们用决定系数表示模型的准确率。更普通的在分类返例时，会有一个阈值，大于阈值则为正，否则为负，这种方法不好控制正反比例。因此现在把模型输出值排序，取前面比例的作为正，后面的作为负。由此可以画出ROC曲线，通常一个模型ROC全部在另一个之上，则可以说这个模型是好的。更多的时候，两个模型的ROC曲线交叉，则表示两个模型侧重的方向不一样。Auc则是对应ROC构成的面积，AUC大的模型综合能力强，但是在某些细节不一定最优。

3. 使模型在验证集取得好结果。这是整个机器学习的核心。在李航老师的书中把机器学习看做是三部分组成即模型+策略+算法。模型即使我们需要解决的问题，一般我们把它映射为一个假设空间，从输入X到输出Y的映射。策略是在我们如何去处理假设空间，在线性回归中，用误差平方和来衡量模型准确率，所以我们要做的就是求这个累积平方和的极小值，这个函数称为损失函数。初此之外，还有求Y的后验概率，或者输出和输出的联合概率，这对应的前两种策略是判别模型，求联合概率的是生成模型。在我看来是一个模型结果评价的过程，主要是决定最优化函数。最后的算法即是用来求解最优函数的优化算法，比如梯度下降法。

正则，交叉验证，过拟合？？

在之前看到的书中，有提到交叉验证和正则都是在做模型选择。一开始很不懂，正则和交叉验证什么关系，和正则有一样效果的应该是特征选择啊！

现在分析一下：说交叉验证和正则都是做模型选择没错，但是对模型选择的方式不一样。交叉验证在上面说了，他为的是能够有验证集，用验证集的结果来反推建造模型时的算法合不合适，参数是不是需要调整，这样来说，它也做了模型选择，算法不同，参数不同模型自然不一样。而正则的模型选择则是作用在特征选择这个过程，它和交叉验证并不是并列关系，通过正则约束，能够减少模型的复杂度，这也可以称为模型选择。在L1的正则中，能够产生系数的参数估计为0，使得相应的特征不出现在模型中，达到一个特征选择的目的，因为在实际中很多特征本来就和结果没关系，通过特征选择可以剔除冗余特征。而交叉验证并不是特征选择，只是根据他的结果矫正算法参数。交叉验证产生验证集，训练集，训练集在去训练模型，为了使得模型效果好，在这个过程我们加入正则。产生较好的结果，在用于验证集，验证集表现不理想，则反回最初，矫正算法和算法参数。这里需要知道算法参数和产生的模型参数并不一样。

由于我们的目的通常是从已知数据得到规律用于未知，所以最好的模型应该是未知集上表现最好的，称之为泛化能力。这是一个非常重要的概念。模型的好坏主要是欠拟合和过拟合，最佳的模型应当平衡这两者达到最好的泛化效果。由于现在算法的发展，欠拟合很好解决，通常只有简单的线性回归会产生欠拟合，（而实际中，岭回归和LASSO都是线性回归的防止过拟合操作）。更多时候，我们想的是防止过拟合，其中常用的有正则化和特征选择，在李航老师书中，将交叉验证也作为一种预防过拟合的方式，并不知是为什么。特征选择包括一种包裹式，过滤式选择的选择，和嵌入式选择。对应于逐步回归中的向后，向前过程。而嵌入式则是通过增加正则化项来平衡经验风险和模型复杂度。正则化项能够压缩参数值，在L1正则化还能够将某些压缩到0，从而来达到选择特征的目的。