Character-Level Language Modeling with Deeper Self-Attention

最新推荐文章于 2024-08-15 13:35:33 发布

置顶

菜小白—NLP

最新推荐文章于 2024-08-15 13:35:33 发布

阅读量1.2k

点赞数 2

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ACM_hades/article/details/93744210

版权

本文介绍了采用64层Transformer模型在字符级别语言建模上的研究，模型在多项任务中表现优越。文章重点探讨了中间层辅助损失（Auxiliary Losses）的重要性，包括对每个中间层进行的下一个词预测以及多个目标的辅助损失，以解决深层网络训练中的问题。此外，还提出了位置编码（Positional Embeddings）的新策略，以保持深层模型中的位置信息。

摘要由CSDN通过智能技术生成

链接

论文链接：https://arxiv.org/pdf/1808.04444v2.pdf
项目链接：https://github.com/nadavbh12/Character

一、前言

论文中展示了一个具有固定上下文长度的比较深的transformer模型(64-layer),该模型大大优于各种RNN模型的变体，并且在两个流行的基准测试中达到了最优水平。
在实验中发现在中间网络层和中间序列位置中添加辅助损失是很重要的。
关于transformer模型可以参考：https://blog.csdn.net/ACM_hades/article/details/88898313

二、Character Transformer Model

1、模型概述

语言模型通常用条件概率分布进行表示： $Pr(t_{0:L})=P(t_0)∏_{i=1}^LPr(t_i |t_{0:i-1})$

最低0.47元/天解锁文章

菜小白—NLP

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

目录

分类专栏

RL
NLP 40篇
ACM 22篇
Python 17篇
Tensorflow 18篇
ML 17篇
Pytorch 2篇

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。