【无标题】

最新推荐文章于 2024-08-15 10:34:48 发布

aifans_bert

最新推荐文章于 2024-08-15 10:34:48 发布

阅读量372

点赞数

分类专栏：神经网络文章标签：机器学习人工智能神经网络

原文链接：http://www.xiaofamao.com/jishu/35.html

版权

神经网络专栏收录该内容

236 篇文章

订阅专栏

深度学习和普通机器学习之间有何区别

。

1、普通机器学习一般指的是像决策树、逻辑回归、支持向量机、xgboost等2、深度学习主要特点是使用深度神经网络：深度卷积网络、深度循环网络、递归网络等区别的话：1、算法层面上没有任何相似的地方，硬要说相似可能就是大家的功能都是对高维函数的拟合吧。

2、普通机器学习比较擅长分析维度较低，可解释性很强的任务。比如数据挖掘、推荐算法。他们的特点是一般情况下采集的数据维度都不高，以广告推送任务为例，一般分析的数据维度只会包含性别、年龄、学历、职业等。

可解释性很强，调参方向较为明确。3、深度学习算法擅长分析高维度的数据。比如图像、语音等。

以图片为例，一张图片像素可能几十上百万，相当于特征向量维度达到几十上百万，而且像素点与像素点之间的关系又不是特别明显。这种时候用卷积神经网络能很有效的处理这种问题，基本很精确的抓取出图片的特征。

但是每个维度的权重可解释性极弱，调参方向很不明朗（神经元数量、隐含层层数等）综上，其实两者差别很大的。深度学习是近几年才发展起来的。传统机器学习算法大都来源于概率论，信息学。

对于程序编写的话，传统机器学习模型基本上都集成在sklearn这个包里面，深度学习可以用tensorflow作为框架想详细了解的话，传统机器学习可以看李航老师的《统计学原理》或者周志华老师的《机器学习》（也叫西瓜书）。

深度学习因为是这两年才发展起来的相关书籍很少，可以去查近两年的深度学习论文当然两者都需要比较扎实的数学基础，主要是这三本：《线性代数》或《高等代数》、《高等数学》或《数学分析》、《概率论》或《随机过程》谢谢。

谷歌人工智能写作项目：小发猫

为什么说Transformer的注意力机制是相对廉价的？注意力机制相对更对于RNN系列及CNN系列算法有何优势？

QA形式对自然语言处理中注意力机制（Attention）进行总结，并对Transformer进行深入解析神经网络与机器学习第十一章答案，神经网络例题。

二、Transformer（AttentionIsAllYouNeed）详解1、Transformer的整体架构是怎样的？由哪些部分组成？

2、TransformerEncoder与TransformerDecoder有哪些不同？

3、Encoder-Decoderattention与self-attentionmechanism有哪些不同？

4、multi-headself-attentionmechanism具体的计算过程是怎样的？5、Transformer在GPT和Bert等词向量预训练模型中具体是怎么应用的？有什么变化？

一、Attention机制剖析1、为什么要引入Attention机制？根据通用近似定理，前馈网络和循环网络都有很强的能力。但为什么还要引入注意力机制呢？

计算能力的限制：当要记住很多“信息“，模型就要变得更复杂，然而目前计算能力依然是限制神经网络发展的瓶颈。

优化算法的限制：虽然局部连接、权重共享以及pooling等优化操作可以让神经网络变得简单一些，有效缓解模型复杂度和表达能力之间的矛盾；但是，如循环神经网络中的长距离以来问题，信息“记忆”能力并不高。

可以借助人脑处理信息过载的方式，例如Attention机制可以提高神经网络处理信息的能力。2、Attention机制有哪些？（怎么分类？

）当用神经网络来处理大量的输入信息时，也可以借鉴人脑的注意力机制，只选择一些关键的信息输入进行处理，来提高神经网络的效率。

按照认知神经学中的注意力，可以总体上分为两类：聚焦式（focus）注意力：自上而下的有意识的注意力，主动注意——是指有预定目的、依赖任务的、主动有意识地聚焦于某一对象的注意力；显著性（saliency-based）注意力：自下而上的有意识的注意力，被动注意——基于显著性的注意力是由外界刺激驱动的注意，不需要主动干预，也和任务无关；可以将max-pooling和门控（gating）机制来近似地看作是自下而上的基于显著性的注意力机制。

在人工神经网络中，注意力机制一般就特指聚焦式注意力。3、Attention机制的计算流程是怎样的？

Attention机制的实质：寻址（addressing）Attention机制的实质其实就是一个寻址（addressing）的过程，如上图所示：给定一个和任务相关的查询Query向量 q，通过计算与Key的注意力分布并附加在Value上，从而计算AttentionValue，这个过程实际上是Attention机制缓解神经网络模型复杂度的体现：不需要将所有的N个输入信息都输入到神经网络进行计算，只需要从X中选择一些和任务相关的信息输入给神经网络。

注意力机制可以分为三步：一是信息输入；二是计算注意力分布α；三是根据注意力分布α来计算输入信息的加权平均。

step1-信息输入：用X =[x1,···,xN]表示N个输入信息；step2-注意力分布计算：令Key=Value=X，则可以给出注意力分布我们将称之为注意力分布（概率分布），为注意力打分机制，有几种打分机制：step3-信息加权平均：注意力分布可以解释为在上下文查询q时，第i个信息受关注的程度，采用一种“软性”的信息选择机制对输入信息X进行编码为：这种编码方式为软性注意力机制（softAttention），软性注意力机制有两种：普通模式（Key=Value=X）和键值对模式（Key！

=Value）。软性注意力机制（softAttention）4、Attention机制的变种有哪些？与普通的Attention机制（上图左）相比，Attention机制有哪些变种呢？

变种1-硬性注意力：之前提到的注意力是软性注意力，其选择的信息是所有输入信息在注意力分布下的期望。还有一种注意力是只关注到某一个位置上的信息，叫做硬性注意力（hardattention）。

硬性注意力有两种实现方式：（1）一种是选取最高概率的输入信息；（2）另一种硬性注意力可以通过在注意力分布式上随机采样的方式实现。

硬性注意力模型的缺点：硬性注意力的一个缺点是基于最大采样或随机采样的方式来选择信息。因此最终的损失函数与注意力分布之间的函数关系不可导，因此无法使用在反向传播算法进行训练。

为了使用反向传播算法，一般使用软性注意力来代替硬性注意力。硬性注意力需要通过强化学习来进行训练。——《神经网络与深度学习》变种2-键值对注意力：即上图右边的键值对模式，此时Key！

=Value，注意力函数变为：变种3-多头注意力：多头注意力（multi-headattention）是利用多个查询Q=[q1,···,qM]，来平行地计算从输入信息中选取多个信息。

每个注意力关注输入信息的不同部分，然后再进行拼接：5、一种强大的Attention机制：为什么自注意力模型（self-Attentionmodel）在长距离序列中如此强大？

（1）卷积或循环神经网络难道不能处理长距离序列吗？

当使用神经网络来处理一个变长的向量序列时，我们通常可以使用卷积网络或循环网络进行编码来得到一个相同长度的输出向量序列，如图所示：基于卷积网络和循环网络的变长序列编码从上图可以看出，无论卷积还是循环神经网络其实都是对变长序列的一种“局部编码”：卷积神经网络显然是基于N-gram的局部编码；而对于循环神经网络，由于梯度消失等问题也只能建立短距离依赖。

（2）要解决这种短距离依赖的“局部编码”问题，从而对输入序列建立长距离依赖关系，有哪些办法呢？

如果要建立输入序列之间的长距离依赖关系，可以使用以下两种方法：一种方法是增加网络的层数，通过一个深层网络来获取远距离的信息交互，另一种方法是使用全连接网络。

——《神经网络与深度学习》全连接模型和自注意力模型：实线表示为可学习的权重，虚线表示动态生成的权重。由上图可以看出，全连接网络虽然是一种非常直接的建模远距离依赖的模型，但是无法处理变长的输入序列。

不同的输入长度，其连接权重的大小也是不同的。这时我们就可以利用注意力机制来“动态”地生成不同连接的权重，这就是自注意力模型（self-attentionmodel）。

由于自注意力模型的权重是动态生成的，因此可以处理变长的信息序列。

总体来说，为什么自注意力模型（self-Attentionmodel）如此强大：利用注意力机制来“动态”地生成不同连接的权重，从而处理变长的信息序列。

（3）自注意力模型（self-Attentionmodel）具体的计算流程是怎样的呢?同样，给出信息输入：用X=[x1,···,xN]表示N个输入信息；通过线性变换得到为查询向量序列，键向量序列和值向量序列：上面的公式可以看出，self-Attention中的Q是对自身（self）输入的变换，而在传统的Attention中，Q来自于外部。

self-Attention计算过程剖解（来自《细讲|AttentionIsAllYouNeed》）注意力计算公式为：自注意力模型（self-Attentionmodel）中，通常使用缩放点积来作为注意力打分函数，输出向量序列可以写为：二、Transformer（AttentionIsAllYouNeed）详解从Transformer这篇论文的题目可以看出，Transformer的核心就是Attention，这也就是为什么本文会在剖析玩Attention机制之后会引出Transformer，如果对上面的Attention机制特别是自注意力模型（self-Attentionmodel）理解后，Transformer就很容易理解了。

1、Transformer的整体架构是怎样的？由哪些部分组成？

Transformer模型架构Transformer其实这就是一个Seq2Seq模型，左边一个encoder把输入读进去，右边一个decoder得到输出：Seq2Seq模型Transformer=TransformerEncoder+TransformerDecoder（1）TransformerEncoder（N=6层，每层包括2个sub-layers）：TransformerEncodersub-layer-1：multi-headself-attentionmechanism，用来进行self-attention。

sub-layer-2：Position-wiseFeed-forwardNetworks，简单的全连接网络，对每个position的向量分别进行相同的操作，包括两个线性变换和一个ReLU激活输出（输入输出层的维度都为512，中间层为2048）：每个sub-layer都使用了残差网络：（2）TransformerDecoder（N=6层，每层包括3个sub-layers）：TransformerDecodersub-layer-1：Maskedmulti-headself-attentionmechanism，用来进行self-attention，与Encoder不同：由于是序列生成过程，所以在时刻i的时候，大于i的时刻都没有结果，只有小于i的时刻有结果，因此需要做Mask。

sub-layer-2：Position-wiseFeed-forwardNetworks，同Encoder。sub-layer-3：Encoder-Decoderattention计算。

2、TransformerEncoder与TransformerDecoder有哪些不同？

（1）multi-headself-attentionmechanism不同，Encoder中不需要使用Masked，而Decoder中需要使用Masked；（2）Decoder中多了一层Encoder-Decoderattention，这与self-attentionmechanism不同。

3、Encoder-Decoderattention与self-attentionmechanism有哪些不同？

它们都是用了multi-head计算，不过Encoder-Decoderattention采用传统的attention机制，其中的Query是self-attentionmechanism已经计算出的上一时间i处的编码值，Key和Value都是Encoder的输出，这与self-attentionmechanism不同。

代码中具体体现：##MultiheadAttention(self-attention) =multihead_attention(, , num_units=hp.hidden_units, num_heads=hp.num_heads, dropout_rate=hp.dropout_rate, is_training=is_training, causality=True, scope="self_attention")##MultiheadAttention(Encoder-Decoderattention) =multihead_attention(, , num_units=hp.hidden_units, num_heads=hp.num_heads, dropout_rate=hp.dropout_rate, is_training=is_training, causality=False, scope="vanilla_attention")4、multi-headself-attentionmechanism具体的计算过程是怎样的？

multi-headself-attentionmechanism计算过程Transformer中的Attention机制由ScaledDot-ProductAttention和Multi-HeadAttention组成，上图给出了整体流程。

下面具体介绍各个环节：Expand：实际上是经过线性变换，生成Q、K、V三个向量；Splitheads:进行分头操作，在原文中将原来每个位置512维度分成8个head，每个head维度变为64；SelfAttention：对每个head进行SelfAttention，具体过程和第一部分介绍的一致；Concatheads：对进行完SelfAttention每个head进行拼接；上述过程公式为：5、Transformer在GPT和Bert等词向量预训练模型中具体是怎么应用的？

有什么变化？

GPT中训练的是单向语言模型，其实就是直接应用TransformerDecoder；Bert中训练的是双向语言模型，应用了TransformerEncoder部分，不过在Encoder基础上还做了Masked操作；BERTTransformer使用双向self-attention，而GPTTransformer使用受限制的self-attention，其中每个token只能处理其左侧的上下文。

双向Transformer通常被称为“Transformerencoder”，而左侧上下文被称为“Transformerdecoder”，decoder是不能获要预测的信息的。

如何评价周志华深度森林模型，热议会否取代深度学习 DNN

安排时间表的时候要注意结合自己的实际。如果你的兴奋点在白天的话，就可以多安排一些白天时间来学习，晚上多安排一点时间来休息；如果是“夜猫子”，就可以晚上多安排一些学习时间，中午安排一些时间来休息。

例如你可以每天早上六点起床，晚上约十一点半就寝，这段时间除上课、休息等耗时外，还有六个多小时的时间可供自学。加以合理安排，是相当可观的。

机器学习，数据挖掘的书有哪些

说到数据分析，人们往往会下意识地联想到另一个耳熟能详的名词：数据挖掘。那么，到底什么是数据挖掘呢？顾名思义，数据挖掘就是对数据进行处理，并从中提取可用信息的过程。

如果你刚好正在寻找这方面的入门书籍，那么韩家炜老师写的《数据挖掘：概念与技术》绝对是一个不错的选择。

该书针对传统的数据分析方法，常见的如聚类、分类、去噪等，都做了非常细致的说明，并附带详实的算法、实例。相信你在看完该书的相关章节后，一定会对上述方法有较为深刻的认知。

值得一提的是，该书还被许多学校引作本科教材，因此读者自学时还可以较为容易地获取各种参考学习资料，让学习模式直接从hard降为easy。

但是，由于该书成书较早，且近年来机器学习发展迅速，其中所涉及的诸多内容在今天看来已显得略微朴实，无法很好地反映数据分析领域当下最前沿的技术。但瑕不掩瑜，总体而言，这依然是一本初学者理想的入门书籍。

在学习完上一本《数据挖掘》后，此时的你将会拥有一些简单的数据分析基础。如果还想更上一层楼，那么周志华老师的这本《机器学习》绝对是不能错过的进阶读本。

用一句话来概括周志华老师的这本《机器学习》的话，大概就是“周老师用一万种方法教你挑个好西瓜”。由于“怎样挑个好瓜”的怨念贯穿了全书的始终，且连封面也印上了西瓜，人们也常常亲切地将其称为西瓜书。

相比于上一本教材，本书对读者明显提出了更高的要求。一方面，该书成书更晚，涵盖的机器学习方法也更广泛，决策树、神经网络、支持向量机、增强学习等大家常常听到的热点方法，书中都分章做了细致的介绍。

另一方面，西瓜书涉及了不少数学公式，需要读者有一定的统计、代数数学基础。看一个公式花上半个小时，那真是家常便饭。不过大家也不用太紧张，本书的附录部分专门为许多公式提供了详尽的推导过程。

即便看完附录后还是一头雾水，你也至少知道用搜索引擎时该填哪些关键词了(￣▽￣)…总的来说，该书是进一步全面了解当下主流数据分析方法，俯瞰机器学习全貌的不二选择，大家可以按自身兴趣选读相关章节。

讲到这里，我似乎听到有读者在犯嘀咕了：“说了这么多，什么时候传我造AI的神功啊？就是那个叫什么深度学习的。”确实，这年头讲到数据分析如果不谈谈网络，都不好意思和别人说自己涉猎过这块领域。

那么，笔者在此就再推荐一本神经网络的入门书籍。其实，神经网络是机器学习方法的一条分支，而且上个世纪50年代就已经有了“感知机”的概念，将感知机推叠在一起就是“多层感知机”。

只是限于当时的计算机算力，人们只能用多层感知机处理一些简单的问题，也无法构建深层网络，因此相关研究也很快冷下来。从某种程度上说，感知机和多层感知机就是当下神经元和神经网络的雏形。

2016年，Google的AlphaGo击败了李世石。人们突然惊奇地发现，当下的算力已经可以支撑神经网络胜任如此复杂的工作了。于是相关领域的研究热度被再次点燃，并一直延续至今。

其实，神经网络的基础理论并不复杂，可概括为“只要神经元足够多，一层前馈网络足以拟合任何函数。”这个理论有什么用呢？

举个例子，如果把你比作一个函数的话，那么你从外界感知到的信息就是函数的输入，而你的反应就是函数的输出。所以从理论上讲，只要你能拟合出一个足够准确的函数，就可以造出一个自己了！

怎么样，是不是感觉可以去造AI了。好了，现在让我们从梦中醒来，先挑一本学习教材。看完书，你就知道拟合出一个“准确”的函数，是一件需要那么多理论和技巧的事。

就入门而言，我强烈推荐MichaelNielsen写的这本在线书籍《NeuralNetworksandDeepLearning》（），主要有以下几个方面的理由：·该书篇幅适中，是极佳的快速入门读物。

送你个哈工大的中文翻译链接（），试试2个星期把它读完吧；·关键公式的推导过程非常详细，便于读者理解性地记忆反向传播、dropout等原理的内涵；·充分发挥了网页版书籍的优势，在页面中插入了一些运行小界面，生动地向读者诠释了神经网络底层运行的各种机理；·更难能可贵的是，随书还附带了一批可运行的神经网络实例。

试试亲自上手改改代码吧，相信你会有意外的收获。