AI从业者需要应用的10种深度学习方法

最新推荐文章于 2024-09-26 15:57:33 发布

BRUCE_WUANG

最新推荐文章于 2024-09-26 15:57:33 发布

阅读量2.2k

点赞数 2

分类专栏：机器学习深度学习文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/sinat_36458870/article/details/78879546

版权

机器学习同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

深度学习

10 篇文章 0 订阅

订阅专栏

AI从业者需要应用的10种深度学习方法

首先，让我们来看看主要有什么？

1.机器学习

过去的十年里已经爆炸了。您几乎每天都会在计算机科学计划，行业会议和各大公众号看到机器学习。
对于所有关于机器学习，许多人会把它能做什么和他们希望做什么混为一谈。

从根本上说，机器学习是使用算法从原始数据中提取信息，并以某种类型的模型表示，我们使用这个模型来推断我们尚未建模的其他数据。

2.神经网络

是机器学习的一种模型他们已经存在了至少50年。神经网络的基本单元是松散地基于哺乳动物大脑中的生物神经元的节点。
神经元之间的联系也是模仿生物大脑，这些联系的方式随着时间的推移（“训练”）。

为啥子现在火了呢？因为在二十一世纪初，计算能力呈指数级增长，业界发现计算技术的“寒武纪爆炸”，在此之前是不可能的。

3.深度学习

是作为这个领域的一个重要竞争者在这个十年的爆炸式的计算增长中出现的，如果赢得了许多重要的机器学习竞赛，工作直接签。

为了让自己走上狂潮（浪潮），我参加过 Andrew Ng,的“机器学习”课程，和“deeplearning.ai”课程，
这是深入学习的入门到放弃的一个很好的学习资料。

最近，我已经开始阅读关于这个问题的学术论文，和三大会议的论文及前沿论文。
关于我通过研究和学习所学到的深度学习，有“大量丰富的”的知识。

在这里，我想分享 AI干事者、研究者可以应用于you guys的机器学习解决问题的 10个强大的深度学习方法。

首先，让我们来定义深度学习是什么。

前言

深度学习是很多人面临的一个挑战，因为它在过去的十年中已经慢慢地改变了形式。为了在视觉上设置深度学习，下图展示了AI，机器学习和深度学习三者之间关系的概念。

ai-ml-dl

人工智能领域广泛，已经有很长一段时间了，深度学习是机器学习领域的一个子集，AI的一个子领域。
一般将深度学习网络与“典型”前馈多层网络(FP)区分开来的方面如下：

比以前的网络更多的神经元
更复杂的连接层的方式
“寒武纪大爆炸”的计算训练能力
自动特征提取（因为我懒啊）

当我说“更多的神经元”，意思是神经元数量已经上升了多年来表达更复杂的模型。
然后，深度学习可以被定义为具有四个基本网络体系结构之一中的：大量‘参数和层’的神经网络：

无监督的预训练网络
卷积神经网络
回归（复）神经网络
递归神经网络

在这篇文章中，我主要关注后三种架构。

一、卷积神经网络

是基本上已经跨越使用共享权重的空间延伸的标准神经网络。CNN被设计为通过在内部卷积来识别图像，其看到图像上识别的对象的边缘。

二、回归神经网络

是基本上已经通过具有边缘，其递进给到下一个时间步长，而不是成在同一时间步骤中的下一层跨越时间延长标准神经网络。RNN被设计为识别序列，例如语音信号或文本。它里面的循环意味着网络中存在短暂的内存。

三、递归神经网络

更像是一个分层网络，其中输入序列确实没有时间方面，但输入必须以树状方式分层处理。以下10种方法可以应用于所有这些体系结构。

为了有助于理解，因为一般人是不会闲到去翻译文献的，这里我把Recurrent Neural Networks译成回归，Recursive Neural Networks译成递归，看文献的请对号入座。

十个应用（重点哈，吐血整理）

1 - 反向传播（BP）

Back-propagation只是一种计算函数偏导数（或梯度）的方法，函数具有函数组成的形式（如神经网络）。当您使用基于梯度的方法（梯度下降只是其中之一）解决优化问题时，您需要在每次迭代中计算函数梯度。

对于神经网络而言，目标函数具有合成的形式
你如何计算梯度？

BP算法是Delta规则的推广，要求每个人工神经元（节点）所使用的激励函数必须是可微的。BP算法特别适合用来训练前向神经网络，有两种常见的方式来做到这一点：

（一）分析微分，你知道函数的形式，只需使用链式规则（基本演算）来计算函数梯度。
（二）使用有限差分进行近似微分。

其中（二）方法的计算量很大，因为评估函数的数量级是 O（N），其中 N 是参数的数量。与分析微分相比，就相形见绌了。然而，有限差分通常用于在调试时验证后端时很有效。

2 - 随机梯度下降（SGD）

想想渐变下降的一种直观的方式是想象一条源于山顶的河流的小路。
梯度下降的目标正是河流努力实现的目标 - 即到达从山上迈着扯着蛋的步子溜向山脚。
现在，如果山的地形是这样形成的，即在到达最终目的地（这是山麓的最低点）之前，河流不必完全停下来，那么这是我们所希望的理想情况。

在机器学习中，我们已经找到了从初始点（山顶）开始的解的全局最小值（或最优值）。
但是，这可能是因为地形的性质使得路径上的几个坑，这可能会迫使河流陷入困境，在机器学习方面，这种‘坑’被称为局部最优，有很多方法（文献）可以解决这个问题，想听的举起手来，我看看。

SGD

因此，梯度下降倾向于卡在局部最小值，这取决于地形的性质（或ML中的函数）。
但是，当你有一个特殊的山地形（形状像一个碗，在ML术语中称为凸函数），该算法始终保证找到最佳。

你可以想象这再次描绘了一条河流。这些特殊的地形（又称凸函数）总是在ML中优化的祝福。另外，取决于你最初从哪里开始（即函数的初始值），你可能会走上一条不同的路。同样，根据河流的爬升速度（即梯度下降算法的学习速率或步长），您可能会以不同的方式到达最终目的地。

3 - 学习率衰减

根据随机梯度下降优化程序调整学习率可以提高性能并减少训练时间。有时这被称为学习速率退火或自适应学习速率。

LRD

最简单的学习速率：是随着时间的推移而降低学习速度。当使用较大的学习速率值时，它们具有在训练过程开始时进行大的改变的益处，并且降低了学习速率，使得稍后在训练过程中对较小的速率进行训练更新，从而对训练进行更新，这样可以达到早期快速学习好权重并稍后进行微调的效果。

两个流行和易于使用的学习率衰减如下：

在训练过程中逐步降低学习率。
在特定的epochs中降低学习速度比如Adam（点一下就看到参考链接）。

4 - Dropout

具有大量参数的深度神经网络是非常强大的机器学习系统，过度拟合也是一个问题，大型网络的使用也很慢，通过在测试时间结合许多不同的大型神经网络的预测，很难处理过度拟合，Dropout是解决这个问题的一种技巧。

Dropout

关键的思想是在训练期间从神经网络中随机丢掉某些单元（连同他们的连接），这可以防止单元适应太多
在训练期间，从不同的指数级的“稀疏”网络中剔除样本。
在测试时间，通过简单地使用具有较小权重的单个未解压的网络来容易地近似平均所有这些细化网络的预测的效果。这显着减少了过拟合，并且比其他正则化方法有了重大改进。
Dropout已被证明可以提高神经网络在视觉监控学习任务，语音识别，文档分类和计算生物学的性能，在许多基准数据集上获得最新的结果。

5 - 最大的池化

最大池化是一个基于样本的离散化过程。目标是对输入表示（图像，隐藏层输出矩阵等）进行下采样，降低其维度，并允许对包含在分区域中的特征进行假设。

M-pooling

这部分是通过提供表示的抽象形式来解决过度拟合，它通过减少要学习的参数数量来降低计算成本，并为内部表示提供基本的平移不变性（量子力学既视感，谁让我有物理背景呢，哈哈），最大池化是通过将最大过滤波器应用于初始表示的通常不重叠的子区域来完成的。

6 - 批量标准化（有时也称归一化）

当然，包括深度网络的神经网络需要仔细调整权重，初始化和学习参数，批量标准化岂不是美滋滋？
权重问题：
无论权重的初始化如何，无论是随机的还是经验性的选择，它们都远离学习权重。考虑一个小批量，在最初的时期，将会有许多异常值在所需的功能激活方面。
深层神经网络本身是不适宜的，即初始层中的小扰动导致后面层的大变化。

在反向传播过程中，这些现象会导致对梯度的分离，这意味着在学习权重以产生所需输出之前，梯度必须补偿异常值。这导致需要额外的epoch来收敛。

Bach-normalize