第二周上课内容总结[神经网络与深度学习]

最新推荐文章于 2024-09-26 15:31:54 发布

βerry.

最新推荐文章于 2024-09-26 15:31:54 发布

阅读量72

点赞数

文章标签：深度学习神经网络机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73941126/article/details/129644691

版权

文章介绍了线性回归和线性分类的区别，包括线性回归的目标和线性分类器的工作原理。接着，讨论了感知机模型及其在解决线性分类问题中的应用。然后，转向BP神经网络和多层感知机，阐述它们如何处理线性不可分问题。最后，提到了性能优化技术，如动量法和自适应梯度算法（AdaGrad,RMSProp,Adam），这些是解决梯度下降问题的有效策略。

摘要由CSDN通过智能技术生成

一、线性分类与感知机

1.线性回归：

定义：利用数理统计中的回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

线性回归要素：训练集、输出数据、模型。

学习过程：

原有二维线性函数的扩展：假设和n个因素相关，则有：

$y=h_{\theta }(x)= \theta ^{T}x$

$J( \theta )=\frac{1}{2}\sum _{i=1}^{m}(y^{(i)}-h_{\theta }(x^{(i)}))^{2}$

目标是找到超平面参数 $\theta$ ，使 $J(\theta )$ 最小。

2.线性二分类问题：

定义：线性分类器则透过特征的线性组合来做出分类决定，以达到此种目的。简言之，样本通过直线(或超平面)可分。

线性分类器的输入：特征向量。

线性分类器的输出：哪一类。如果是二分类问题，则为0和1，或者是属于某类的概率，即0-1之间的数。

线性分类与线性回归的差别：

(1)输出意义不同：属于某类的概率 -- 回归具体值；

(2)参数意义不同：最佳分类直线 -- 最佳集合曲线

(3)纬度不同：一个是n维的回归，一个是二维的分类

值的变换：代入直线方程的值，因为最终需要概率，结果在0- 1之间，因此需要对值做一个变换：

$y=\frac{1}{1+e^{-z}}$

其中， $z=\theta _{1}x_{1}+\theta _{2}x_{2}+\theta _{3}x_{3}$

该函数称作Sigmoid函数。

求解 $min_{\theta }J(\theta )$ ：由于J变成了非线性，因此采用迭代的方法让 $J(\theta )->0$ ，即

3.对数回归与多分类回归：

Softmax：

4.神经元模型

相关模型：生物神经网络 -- 生物神经元 -- 生物神经元（Spiking模型）-- 生物神经元(Integrate-and-fire模型) -- 人工神经元模型(M-P模型) -- 单神经元模型

作用函数：

(1)非对称型Sigmoid函数（Log Sigmoid）

(2)对称型Sigmoid函数（Tangent Sigmoid）

(3)对称型阶跃函数

5.感知机模型：

感知机原理：感知机(Perceptron)是1957年，由Rosenblatt提出，是神经网络和支持向量机的基础。感知机用于解决线性分类问题，如下图所示：

感知机模型：

从输入到输出的模型： $y=f(x)=sign(w^{T}x)$ 其中sign为符号函数

定义损失函数如下： $L(w)=-\frac{1}{\left \| w \right \|}\sum y^{(i)}(w^{T}x^{(i)})$

二、BP网络

1.多层感知机

背景：针对线性不可分问题(无法进行线性分类。Minsky 1969年提出)

多层感知机：在输入和输出层间加一或多层隐单元，构成多层感知器(多层前馈神经网络)，以解决线性不可分问题。

三层感知机可识别任一凸多边形或无界的凸区域，更多层感知器网络，可识别更为复杂的图形。

多层感知器网络，有如下定理:

定理1：若隐层节点(单元)可任意设置，用三层阈值节点的网络，可以实现任意的二值逻辑函数。

定理2：若隐层节点(单元)可任意设置，用三层S型非线性特性节点的网络，可以一致逼近紧集上的连续函数或按范数逼近紧集上的平方可积函数。

2.多层前馈网络及BP算法概述

BP算法简介：多层前馈网络的反向传播（BP）学习算法，简称BP算法，是有导师的学习，它是梯度下降法在多层前馈网中的应用。

BP神经网络结构：见图，u、y是网络的输入、输出向量，神经元用节点表示，网络由输入层、隐层和输出层节点组成，隐层可一层，也可多层（图中是单隐层），前层至后层节点通过权联接。由于用BP学习算法，所以常称BP神经网络。

BP算法简述：BP学习算法由正向传播和反向传播组成，

① 正向传播是输入信号从输入层经隐层，传向输出层，若输出层得到了期望的输出，则学习算法结束；否则，转至反向传播。

② 反向传播是将误差(样本输出与网络输出之差)按原联接通路反向计算，由梯度下降法调整各层节点的权值和阈值，使误差减小。

3.BP算法详解

BP算法基本思想：网络训练的目的，是使对每一个输入样本，调整网络参数，使输出均方误差最小化，这是一个最优化问题。

BP算法的基本流程：

4.BP算法评述

优点：学习完全自主；可逼近任意非线性函数

缺点：算法非全局收敛；收敛速度慢；学习速率 $\alpha$ 的选择；神经网络如何设计(几层？节点数？)

三、性能优化

1.动量法

问题引出：SGD问题：病态曲率

如果把原始的 SGD 想象成一个纸团在重力作用向下滚动，由于质量小受到山壁弹力的干扰大，导致来回震荡；或者在鞍点处因为质量小速度很快减为 0，导致无法离开这块平地。动量方法相当于把纸团换成了铁球；不容易受到外力的干扰，轨迹更加稳定；同时因为在鞍点处因为惯性的作用，更有可能离开平地。

使用动量的随机梯度下降算法逻辑：

2.自适应梯度算法

Adaptive Gradient：自适应梯度

参数自适应变化：具有较大偏导的参数相应有一个较大的学习率，而具有小偏导的参数则对应一个较小的学习率。具体来说，每个参数的学习率会缩放各参数反比于其历史梯度平方值总和的平方根。

AdaGrad算法：

AdaGrad问题：学习率是单调递减的，训练后期学习率过小会导致训练困难,甚至提前结束，且需要设置一个全局的初始学习率。

RMSProp算法：

(1)RMSProp 解决 AdaGrad 方法中学习率过度衰减的问题；

(2)RMSProp 使用指数衰减平均以丢弃遥远的历史，使其能够快速收敛；此外，RMSProp 还加入了超参数 𝜌 控制衰减速率。

Adam算法 ：

(1)Adam 在 RMSProp 方法的基础上更进一步：除了加入历史梯度平方的指数衰减平均(𝑟)外，还保留了历史梯度的指数衰减平均(𝑠),相当于动量。

(2)Adam 行为就像一个带有摩擦力的小球，在误差面上倾向于平坦的极小值。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

βerry. CSDN认证博客专家 CSDN认证企业博客

码龄2年

5: 原创

173万+: 周排名

45万+: 总排名

370: 访问

: 等级

62: 积分

1: 粉丝

2: 获赞

3: 评论

0: 收藏

私信

关注

热门文章

最新评论

windows发布QT程序
CSDN-Ada助手: 恭喜您写了第5篇博客！标题为“windows发布QT程序”，这是一个非常有用的主题。您的文章内容清晰明了，对于想要在Windows平台上发布QT程序的读者来说，无疑是一份宝贵的指南。很高兴看到您持续创作，为社区贡献了如此有价值的知识。在下一步的创作中，或许您可以考虑探讨一些常见的问题和解决方案，例如在不同版本的Windows上发布QT程序可能会遇到的兼容性问题，或者一些最佳实践和技巧，帮助读者更好地优化和调试他们的程序。当然，这只是一个建议，您对于自己的博客内容最了解，我们期待看到更多您的精彩创作！谦虚地说，继续加油！
第五、六周上课内容总结[神经网络与深度学习]
CSDN-Ada助手: 恭喜您写出了这篇总结性的博客，对于学习神经网络与深度学习的同学们来说，一定有很大的帮助。不过在下一篇博客中，或许可以加入一些自己的思考和实践，让读者更好地理解这些知识，并且更能够掌握应用技巧。希望您能够继续保持创作的热情，并不断进步。 CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
第二周上课内容总结[神经网络与深度学习]
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。