深度学习的57个名词

本文介绍了深度学习中57个关键术语,包括激活函数、优化算法(如Adadelta、Adagrad、Adam)、神经网络组件(如仿射层、双向循环神经网络、注意力机制)、框架与模型(如Caffe、Alexnet、ResNet)、正则化技术(如Dropout、批标准化)以及词嵌入和序列模型(如word2vec、LSTM、GRU)等,旨在帮助读者理解和掌握深度学习的基础知识。
摘要由CSDN通过智能技术生成

一、激活函数(Activation Function)

为了让神经网络能够学习复杂的决策边界(decision boundary),我们在其一些层应用一个非线性激活函数。常用的函数有sigmoid、tanh、ReLU(Rectified Linear Unit 线性修正单元)和以及这些函数的变体。

二、Adadelta

Adadelta 是基于梯度下降的学习算法,可以随时间调整每个参数的学习率,它比超参数(hyperparameter)更敏感而且可能会降低学习率。Adadelta 类似于 rmsprop,而且可被用来替代 vanilla SGD。

论文:Adadelta:一种自适应学习率方法

ADADELTA: An Adaptive Learning Rate Method

技术博客:斯坦福CS231n:优化算法

http://cs231n.github.io/neural-networks-3/

技术博客:梯度下降优化算法概述

http://sebastianruder.com/optimizing-gradient-descent/

三、Adagrad

Adagrad 是一种自适应学习率算法,能够随时间跟踪平方梯度并自动适应每个参数的学习率。它可被用来替代vanillaSGD (http://www.wildml.com/deep-learning-glossary/#sgd),稀疏数据上更是特别有用,可以将更高的学习率分配给更新不频繁的参数。

论文:用于在线学习和随机优化的自适应次梯度方法

(Adaptive Subgradient Methods for Online Learning andStochastic Optimization)

技术博客:斯坦福 CS231n:优化算法

http://cs231n.github.io/neural-networks-3/

技术博客:梯度下降优化算法概述

http://sebastianruder.com/optimizing-gradient-descent/

四、Adam

Adam 是类似于 rmsprop 的自适应学习率算法,它通过使用梯度的第一和第二时刻的运行平均值(running average)直接估计,并具有偏差校正功能。

论文:Adam:一种随机优化方法

(Adam: A Method for Stochastic Optimization)

技术博客:梯度下降优化算法概述

(http://sebastianruder.com/optimizing-gradient-descent/)

五、仿射层(Affine Layer)

这是神经网络中的一个全连接层。仿射(Affine)的意思是前面一层中的每一个神经元都连接到当前层中的每一个神经元。在许多方面,这是神经网络的「标准」层。仿射层通常被加在卷积神经网络或循环神经网络做出最终预测前顶层。仿射层的一般形式为 y = f(Wx + b),其中 x 是层输入,w 是参数,b 是一个偏差矢量,f 是一个非线性激活函数。

六、注意机制(Attention Mechanism)

注意机制由人类视觉注意所启发,是一种关注图像中特定部分的能力。注意机制可被整合到语言处理和图像识别的架构中,以帮助网络学习在做出预测时应该「关注」什么。

技术博客:深度学习和自然语言处理中的注意和记忆

(http://www.wildml.com/2016/01/attention-and-memory-in-deep-learning-and-nlp/)

七、Alexnet

Alexnet 是一种卷积神经网络架构的名字,这种架构曾在 2012 年 ILSVRC 挑战赛中以巨大优势获胜,它使导致人们重新关注对用于图像识别的卷积神经网络(CNN)。它由 5 个卷积层组成。其中一些后面跟随着最大池化(max-pooling)层和带有最终 1000 条路径的 softmax (1000-way softmax)的 3个全连接层。Alexnet 被引入到了使用深度卷积神经网络的 ImageNet 分类中。

八、自编码器(Autoencoder)

自编码器是一种神经网络模型,它的目标是预测输入自身,这通常通过网络中某个地方的「瓶颈(bottleneck)」实现。通过引入瓶颈,使得网络学习输入更低维度的表征,从而将输入压缩成一个好的表征。自编码器和 PCA 等降维技术相关,但因为它们的非线性本质,它们可以学习更为复杂的映射。目前已有一些范围涵盖较广的自编码器存在,包括降噪自编码器(Denoising Autoencoders)、变自编码器(VariationalAutoencoders)和序列自编码器(Sequence Autoencoders)。

降噪自编码器论文:

Stacked Denoising Autoencoders: Learning Useful Representationsin a Deep Network with a Local Denoising Criterion

变自编码器论文:

Auto-Encoding Variational Bayes

序列自编码器论文:

Semi-supervised Sequence Learning

九、平均池化(Average-Pooling)

平均池化是一种在卷积神经网络中用于图像识别的池化(Pooling)技术。它的原理是,在特征的局部区域上滑动窗口(如像素),然后再取窗口中所有值的平均值。它将输入表征压缩成一种更低维度的表征。

十、反向传播(Backpropagation)

反向传播是一种在神经网络中用来有效地计算梯度的算法&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值