机器学习综述

最新推荐文章于 2024-07-30 17:39:55 发布

Jim1235

最新推荐文章于 2024-07-30 17:39:55 发布

阅读量675

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/Jim1235/article/details/103894484

版权

文章目录

- - 机器学习综述

机器学习综述

对于世间的一切事情，场景复杂多变，面对不同的场景处理。机器学习就是教会计算机去学习，从而达到处理复杂场景的能力。
理论基础：
为了让机器学会学习，更好地推荐预测人类的需求，从而更好地为人类服务，让我我们有更多的时间去着重于创造，从无关紧要的琐事中解脱，提高我们的工作效率，从而加快世界人类文明的发展。
在进行特定编程的情况下，给予计算机学习能力的领域。 ------Arthur Samuel

机器学习分类：

有监督学习（supervised learning）:
监督学习就是通过正确的数据输入输出训练，让机器有了更多的经验，下次遇到类似的问题，可以直接给出预测的结果，主要用于分类和预测。
（思考问题：内部的处理机制原理：如何处理，找相近类似？还是如何决策选择？更好地进行分类）
拓展概念：
回归问题：通过回归推出一个连续的输出（着重于连续）
支持向量机的概念：计算机处理多个特征，通过多维数字特征来进行预测。
无监督学习（unsupervised learning）：
无监督学习是指未经过正确数据训练的算法，其需要从数据集中发现隐含的某种结构，从而获得样本数据的结构特征，判断哪些数据比较相似，从大量的数据中给出相应的分类。常见的应用有聚类问题，分析给出的数据，从而将具有相同特征的数据聚集到一起。
半监督学习：
半监督学习是监督学习和非监督学习的结合，其在训练阶段使用的是未标记的数据和已标记的数据，不仅要学习属性之间的结构关系，也要输出分类模型进行预测。
强化学习（reforcement Learning）：
又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题.

机器学习方法三要素：

机器学习损失函数
损失函数（loss function）是用来估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常可以表示成如下式子
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3mnzEQKT-1578474121213)(en-resource://database/1880:1)]
在这里插入图片描述
其中，前面的均值函数表示的是经验风险函数，L代表的是损失函数
1、0-1损失函数
0-1损失函数常见于感知机模型中，预测正确则损失为0，预测错误则损失为1。

2、绝对值损失函数

3、平方损失函数

4、log对数损失函数
对数损失函数最常见的应用就是在逻辑回归中
在这里插入图片描述
5、指数损失函数

6、Hinge损失函数

机器学习模型选择和特征选择

模型选择的标准是尽可能地贴近样本真实的分布。但是在有限的样本下，如果我们有多个可选模型，比如从简单到复杂，从低阶到高阶，参数由少到多。那么我们怎么选择模型呢，是对训练样本的拟合度越好就可以吗？显然不是，因为这样做的话只会让我们最终选择出最复杂，最高阶的模型。而这个模型的问题是过拟合的，即对样本真实分布的预测误差是很高的。那么该如何选择模型，使得泛化误差尽量小呢，有下面这些常用的方法：
保留交叉验证
把样本分成训练样本和测试样本，一般可以7比3的比例。7成的样本训练出的模型，用3成的样本做检验。取测试准确率最高的模型
K折交叉验证
取K为10为例，把所有样本平均分成10分，然后用9份训练，剩下的1份做测试。这样可以做十次测试，取十次测试的准确率的平均值最高的模型做为选取的模型。
留1交叉验证
当样本数目很少并且很难取得的时候，K折交叉验证的极限就是让K等于样本数目N，这样N-1个样本作为训练样本，1个作为测试样本。经过N次测试，取平局准确率最高的模型作为我们选择的模型。
在交叉验证做完选取理想模型之后，可以把所有样本再放到模型中训练一次，作为最后的输出模型。

机器学习参数调优

1. 网格搜索
网格搜索可能是最简单、应用最广泛的超参数搜索算法，它通过查找搜索范围内的所有的点来确定最优值。如果采用较大的搜索范围以及较小的步长，网格搜索有很大的概率找到全局最优值。然而，这种搜索方法十分消耗计算资源和时间，特别是需要调优的超参数比较多的时候。因此，在实际应用中，网格搜索法一般会先使用较广的搜索范围和较大的步长，来寻找全局最优值可能的位置；然后会逐渐缩小搜索范围和步长，来寻找更精确的最优值。这种操作方案可以降低所需的时间和计算量，但由于目标函数一般是非凸的，所以很可能会错过全局最优值。
2. 随机搜索
随机搜索的思想与网格搜索比较相似，只是不再测试上界和下界之间的所有值，而是在搜索范围中随机选取样本点。它的理论依据是，如果样本点集足够大，那么通过随机采样也能大概率地找到全局最优值或其近似值。随机搜索一般会比网格搜索要快一些，但是和网格搜索的快速版一样，它的结果也是没法保证的。
3. 贝叶斯优化算法
贝叶斯优化算法在寻找最优最值参数时，采用了与网格搜索、随机搜索完全不同的方法。网格搜索和随机搜索在测试一个新点时，会忽略前一个点的信息；而贝叶斯优化算法则充分利用了之前的信息。贝叶斯优化算法通过对目标函数形状进行学习，找到使目标函数向全局最优值提升的参数。具体来说，它学习目标函数形状的方法是，首先根据先验分布，假设一个搜索函数；然后，每一次使用新的采样点来测试目标函数时，利用这个信息来更新目标函数的先验分布；最后，算法测试由后验分布给出的全局最值最可能出现的位置的点。对于贝叶斯优化算法，有一个需要注意的地方，一旦找到一个局部最优值，它会在该区域不断采样，所以很容易陷入局部最优值。为了弥补这个缺陷，贝叶斯优化算法会在探索和利用之间找到一个平衡点，“探索”就是在还未取样的区域获取采样点；而“利用”则是根据后验分布在最可能出现全局最值的区域进行采样。
参考文献：
1、https://www.cnblogs.com/jiangxinyang/p/9251196.html
2、https://blog.csdn.net/qq_36653505/article/details/82962074
3、https://www.cnblogs.com/learninglife/p/9340636.html
4、机器学习个人笔记
5、https://github.com/datawhalechina/team-learning/blob/master