机器学习基本概念

弗洛伊德和迪杰斯特拉

于 2022-01-19 21:33:51 发布

阅读量438

点赞数

分类专栏：智能计算系统文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/qq_46617079/article/details/122590311

版权

智能计算系统专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、基本概念

1、拟合

拟合是指对训练集数据的分辨能力，过拟合是指在拟合的过程中，不止学习了特征，还学习了噪声，导致模型在训练集的分辨能力很强，在测试集的分辨能力很弱

2、泛化

泛化是指模型对测试集的分辨能力，即适应新数据的能力

3、激活函数

激活函数的输出就是y^{，就是模型给出的y}与实际的y进行比较

1⃣️、sigmoid函数

sigmoid函数的特点：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CnhqaONZ-1642599144784)(06abbe5c050770300de9c91bc76e4af5-8428170.svg)]

2⃣️、tanh函数

问题：输入很大很小时，输出几乎是平滑，梯度小，不利于权重更新

3⃣️、ReLU函数

所谓的函数死掉：

4⃣️、PReLU函数

5⃣️、ELU函数

二、常用的损失函数

损失函数又称为代价函数、目标函数

1、均方差损失函数

L=1/2（y-y’)^2

解决激活函数接近1时的问题方法：

2、交叉熵损失函数

yi^时模型输出的结果，yi时实际结果

三、神经网络中损失函数的特性

截屏2021-11-27 下午4.19.51

当然，这里需要注意的是，要求全微分存在这个条件有些太强了，实际上，即使在某点上各个方向的偏导数都存在，全微分也不一定会存在。

四、正则化

https://blog.csdn.net/qq_20412595/article/details/81636105

1、含义

preview

正则化是为了防止过拟合，进而增强泛化能力

正则化后的损失函数分为两部分，一部分是原来的损失函数，另外一部分是正则项，我们要求的参数值，往往这两种损失的交点处，可以联想两个不同的位于y轴下方的波进行合并，当他们波谷（例如在x = x0处）重合在一起时，其波谷值会达到最小，这里损失也是一样的。

2、类别

①、L0 正则化

稀疏的参数可以防止过拟合，因此用L0 范数（非零参数的个数）来做正则化项是可以防止过拟合的。

从直观上看，利用非零参数的个数，可以很好的来选择特征，实现特征稀疏的效果，具体操作时选择参数非零的特征即可。但因为L0 正则化很难求解，是个NP难问题，因此一般采用L1 正则化。L1 正则化是L0 正则化的最优凸近似，比L0 容易求解，并且也可以实现稀疏的效果。

②、L2 正则化

L2正则化就是在代价函数后面再加上一个正则化项：

C0代表原始的代价函数，后面那一项就是L1 正则化项，它是这样来的：所有参数w的平方的和，除以训练集的样本大小n。λ就是正则项系数，权衡正则项与C0项的比重。另外还有一个系数1/2，1/2经常会看到，主要是为了后面求导的结果方便，后面那一项求导会产生一个2，与1/2相乘刚好凑整。

L2正则化项是怎么避免overfitting的呢？我们推导一下看看，先求导：

可以发现L_{2}正则化项对b的更新没有影响，但是对于w的更新有影响:

到目前为止，我们只是解释了L_{2}正则化项有让w“变小”的效果，但是还没解释为什么w“变小”可以防止overfitting？人们普遍认为：更小的权值w，从某种意义上说，表示网络的复杂度更低，对数据的拟合刚刚好（这个法则也叫做奥卡姆剃刀）。而在实际应用中，也验证了这一点，L_{2}正则化的效果往往好于未经正则化的效果。

③、L1 正则化

在原始的代价函数后面加上一个L1正则化项，即所有权重w的绝对值的和，乘以λ/n（这里不像L2正则化项那样，需要再乘以1/2）

同样先计算导数：

上式中sgn(w)表示w的符号。那么权重w的更新规则为：比原始的更新规则多出了η * λ * sgn(w)/n这一项。当w为正时，更新后的w变小。当w为负时，更新后的w变大——因此***它的效果就是让w往0靠，使网络中的权重尽可能为0，也就相当于减小了网络复杂度，防止过拟合。***

④、Bagging（Bootstrap aggregating）集成方法

⑤、Dropout正则化

⑥、其他正则化方法

五、交叉验证

弗洛伊德和迪杰斯特拉

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习基本概念

一、基本概念1、拟合拟合是指对训练集数据的分辨能力，过拟合是指在拟合的过程中，不止学习了特征，还学习了噪声，导致模型在训练集的分辨能力很强，在测试集的分辨能力很弱2、泛化泛化是指模型对测试集的分辨能力，即适应新数据的能力3、激活函数激活函数的输出就是y，就是模型给出的y与实际的y进行比较1⃣️、sigmoid函数sigmoid函数的特点：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CnhqaONZ-1642599144784)(06abbe5c050
复制链接

扫一扫

专栏目录