从前馈神经网络到自然语言表示方法到RNN到LSTM到attention-到transformer--seq2seq总结

本人半路出家,得空从头到尾看了深度学习进阶(自然语言处理)这本书。书中详细介绍了(1)前馈神经网络(2)单词的分布式表示(3)RNN(4)lstm(5)attention(6)transformer(7)seq2seq,整体我将详细的分为7个模块一一介绍。

(1)前馈神经网络是我们比较熟悉的神经网络,具体的计算方法相信大家也比较熟悉,即wx+b。具体参见后续添加具体博客网页。

(2)自然语言无法直接输入到计算机,需要转化为数字计算机才能进行处理。整体有两种思路去表示,一种即通过one-hot编码,不常用,计算量比较大,且单词数字无意义。另外一种表示方式,是通过根据周边单词的信息表达的,总体有两种方法基于计数和基于推理的方法。具体参见后续添加具体博客网页。

(3)简单循环神经网络即我们常说的RNN,其实我们常说的lstm和GRU也是RNN,只是具有门的RNN。产生的主要原因即前馈神经网络无法充分学习时序数据(我们平常的语言都是具有一定顺序)的性质。具体参见后续添加具体博客网页。

(4)由于针对时序数据的长期以来关系RNN会出现梯度消失和梯度爆炸的问题,门结构可以解决这种问题。主要根本原因是RNN涉及的是矩阵相乘得出一些结果,而基于门机构的LSTM采用的阿达玛乘积即对应位置的元素相乘进行运算。(同学们可以温习下矩阵相乘的计算方法,比较一下不同之处)具体参见后续添加具体博客网页。

(5)attention要解决的问题是注意力,主要应用于seq2seq。主要是如何从一个时序编码出来的隐藏层信息传递给解码器,同时实现信息对应,比如编码i am li 对应解码器我是李,每一个单词如何与汉语对应的这种对应关系,我们更多的是想要编码器传过来的特征是一一对应的。具体参见后续添加具体博客网页。

(6)transformer是解决分布式计算问题的。具体参见后续添加具体博客网页。

(7)seq2seq是一个时序数据到另一个数据的转化问题,注意这个和普通的认知不同的是二者的个数不一定要一一对应。具体参见后续添加具体博客网页。

注意一下编码和解码的含义,所谓编码即提取输入时序的信息,解码即输出信息结合输入信息得到输出信息。

本页作为一个导入页。具体连接后续写了之后贴到本页,以供大家,整体了解。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值