神经网络模型底层原理与实现7-transformer

最新推荐文章于 2024-05-05 17:37:24 发布

爱学习的uu

最新推荐文章于 2024-05-05 17:37:24 发布

阅读量781

点赞数 28

文章标签：深度学习机器学习神经网络人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60792028/article/details/137289664

版权

为啥叫transformer：这个模型的作用是解决比如文本分类，但每个文本适合被分到的类别数不定，可以让模型来决定要分到几类中（像变形金刚一样）

基本架构：输入-encoder-decoder-输出，整体架构为n个block

具体细节架构是

输入-位置编码-多头注意力机制-残差网络+层正则化-feedforward层（通过线性变换，先将数据映射到高纬度的空间再映射到低纬度的空间，提取了更深层次的特征）

当然，transformer一层不一定要这样设计

decoder：介绍常见的autoregressive形式的decoder

整体结构：把encoder输出读到decoder里面，然后根据一个特殊字符的输入开始，以此输出中文字，每个输出选择概率最大的那个

decoder的细节结构：

比encoder层多了mask层，具体如下：

和一般的self attention不同的是，在输出b2时只考虑a1、a2（为了符合decoder的工作原理）

如何决定输出的长度：

在autoregressive中，在可以被输出的中文字符组中加入end，如果某此输出end概率最大，就终止

模型结构讲完再来讲下

auto和not auto的对比：

NAT：同时输入多个begin，并行输出

如何决定长度：两种办法：用另外一个模型训练出输出长度/直接根据输入，输出一个同样长度的输出，然后根据end位置做截断

最后讲下如何训练：

把正确结果的每个字表示为一个one hot编码，和每一位输出单独做交叉熵，目标函数就是每个字的总交叉熵最小（注意把end也算进去）

两个tips：

1.训练时采用的是单个字的cross entropy 求和，测试时是算blue score，可能会有偏差，但不能在训练时直接用blue score，因为不能微分（可以用强化学习解决）

2.在训练的时候，每次都是由正确的输入得出输出，但在测试时不是这样，可能导致一步错步步错的情况，解决方法是在训练中就加入一些错误输入

关注

28
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
神经网络模型底层原理与实现7-transformer

1.训练时采用的是单个字的cross entropy 求和，测试时是算blue score，可能会有偏差，但不能在训练时直接用blue score，因为不能微分（可以用强化学习解决）2.在训练的时候，每次都是由正确的输入得出输出，但在测试时不是这样，可能导致一步错步步错的情况，解决方法是在训练中就加入一些错误输入。整体结构：把encoder输出读到decoder里面，然后根据一个特殊字符的输入开始，以此输出中文字，每个输出选择概率最大的那个。NAT：同时输入多个begin，并行输出。模型结构讲完再来讲下。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。