nlp 中文文本纠错_NLP中文文本分类任务的笔记(三)

e3a492001853b0448fc856cf9fe202b9.png

承接前两篇笔记

邓文涛:NLP中文文本分类任务的笔记(一)​zhuanlan.zhihu.com
1765748e0ecec882059436441c38b76b.png
邓文涛:NLP中文文本分类任务的笔记(二)​zhuanlan.zhihu.com
1765748e0ecec882059436441c38b76b.png

这篇主要想讲一讲对transformer和BERT框架的一些个人理解。关于细节一些可以参考知乎大神们的一些文章:

  • Transformer 模型的 PyTorch 实现 (推荐研读)
  • 《Attention is All You Need》浅读(简介+代码)
  • 深度学习中的注意力机制 - 云+社区 - 腾讯云
  • Attention? Attention!
  • Building the Mighty Transformer for Sequence Tagging in PyTorc
  • [整理] 聊聊 Transformer

先上图

ce7da928582c297c182105a6676124ec.png

transformer-encoder的部分

  1. 先对inputs进行input embedding,然后进行positional encoding :

在初始化

的时候, 我们先需要经过一个线性变换:

2. 接下来经过Multi-Head Attention对positional encoding 进行学习:

aa69bf3e7433fde3de2dc387f3385564.png

可以知道,attention用的正是上一篇笔记中使用的self-attention结构,其实也就是 Scaled Dot-Product Attention。

Muti-Head 的意思是通过初始化多个self-attention的结构,默认的一些参数分别是:

, 因此我们可以将对应的attention公式改成如何的操作:

接下来将8个head的attention拼在一起,进过一个dense layer进行整合。

3. 第三部分其实是一个 position-wise feed-forward network,其实就是一个全联接层。

transformer-decoder的部分

  1. multi-head self-attention mechanism (对应的masked multi-head attention).
  2. multi-head context-attention mechanism (对应的 multi-head attention).
  3. position-wise feed-forward network(linear).
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值