Task 6：基于深度学习的文本分类3

最新推荐文章于 2021-01-20 23:47:17 发布

人工智能57

最新推荐文章于 2021-01-20 23:47:17 发布

阅读量169

点赞数

文章标签： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lxt11122/article/details/107770664

版权

本文介绍了Transformer的原理，重点解析了self-attention层和位置编码，并讲述了如何基于预训练的Bert模型进行文本分类，包括数据处理和模型微调。

摘要由CSDN通过智能技术生成

学习目标

了解了解Transformer的原理和基于预训练语言模型（Bert）的词表示
学会Bert的使用，具体包括pretrain和finetune

Transformer原理

在这里插入图片描述

Transformer是在"Attention is All You Need"中提出的，模型的编码部分是一组编码器的堆叠（论文中依次堆叠六个编码器），模型的解码部分是由相同数量的解码器的堆叠。
我们重点关注编码部分。他们结构完全相同，但是并不共享参数，每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后，它们首先流过一个self-attention层，该层帮助编码器在它编码单词的时候能够看到输入序列中的其他单词。self-attention的输出流向一个前向网络（Feed Forward Neural Network），每个输入位置对应的前向网络是独立互不干扰的。最后将输出传入下一个编码器。
这里能看到Transformer的一个关键特性，每个位置的词仅仅流过它自己的编码器路径。在self-attention层中，这些路径两两之间是相互依赖的。前向网络层则没有这些依赖性，但这些路径在流经前向网络时可以并行执行。

Self-Attention中使用多头机制，使得不同的attention heads所关注的的部分不同。
编码"it"时，一个attention head集中于"the animal"，另一个head集中于“tired”&

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Task 6：基于深度学习的文本分类3

学习目标了解了解Transformer的原理和基于预训练语言模型（Bert）的词表示学会Bert的使用，具体包括pretrain和finetuneTransformer原理Transformer是在"Attention is All You Need"中提出的，模型的编码部分是一组编码器的堆叠（论文中依次堆叠六个编码器），模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同，但是并不共享参数，每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后，它们首先流过一
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。