从前馈神经网络到自然语言表示方法到RNN到LSTM到attention-到transformer--seq2seq总结

最新推荐文章于 2024-08-22 11:02:37 发布

一个想走出去的宅家程序猿

最新推荐文章于 2024-08-22 11:02:37 发布

阅读量528

点赞数

文章标签： lstm rnn 神经网络 transformer

本文链接：https://blog.csdn.net/u014361476/article/details/123259723

版权

本人半路出家，得空从头到尾看了深度学习进阶（自然语言处理）这本书。书中详细介绍了（1）前馈神经网络（2）单词的分布式表示（3）RNN（4）lstm（5）attention（6）transformer（7）seq2seq，整体我将详细的分为7个模块一一介绍。

（1）前馈神经网络是我们比较熟悉的神经网络，具体的计算方法相信大家也比较熟悉，即wx+b。具体参见后续添加具体博客网页。

（2）自然语言无法直接输入到计算机，需要转化为数字计算机才能进行处理。整体有两种思路去表示，一种即通过one-hot编码，不常用，计算量比较大，且单词数字无意义。另外一种表示方式，是通过根据周边单词的信息表达的，总体有两种方法基于计数和基于推理的方法。具体参见后续添加具体博客网页。

（3）简单循环神经网络即我们常说的RNN，其实我们常说的lstm和GRU也是RNN，只是具有门的RNN。产生的主要原因即前馈神经网络无法充分学习时序数据（我们平常的语言都是具有一定顺序）的性质。具体参见后续添加具体博客网页。

（4）由于针对时序数据的长期以来关系RNN会出现梯度消失和梯度爆炸的问题，门结构可以解决这种问题。主要根本原因是RNN涉及的是矩阵相乘得出一些结果，而基于门机构的LSTM采用的阿达玛乘积即对应位置的元素相乘进行运算。（同学们可以温习下矩阵相乘的计算方法，比较一下不同之处）具体参见后续添加具体博客网页。

（5）attention要解决的问题是注意力，主要应用于seq2seq。主要是如何从一个时序编码出来的隐藏层信息传递给解码器，同时实现信息对应，比如编码i am li 对应解码器我是李，每一个单词如何与汉语对应的这种对应关系，我们更多的是想要编码器传过来的特征是一一对应的。具体参见后续添加具体博客网页。

（6）transformer是解决分布式计算问题的。具体参见后续添加具体博客网页。

（7）seq2seq是一个时序数据到另一个数据的转化问题，注意这个和普通的认知不同的是二者的个数不一定要一一对应。具体参见后续添加具体博客网页。

注意一下编码和解码的含义，所谓编码即提取输入时序的信息，解码即输出信息结合输入信息得到输出信息。

本页作为一个导入页。具体连接后续写了之后贴到本页，以供大家，整体了解。