Gavin老师Transformer直播课感悟 - DIET:基于Transformer的轻量级多任务NLU系统（二）

最新推荐文章于 2024-07-19 14:06:58 发布

m0_49380401

最新推荐文章于 2024-07-19 14:06:58 发布

阅读量1k

点赞数 1

分类专栏： AI 文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_49380401/article/details/121721142

版权

一、概述

DIET(Dual Intent and Entity Transformer)是一种基于Transformer的轻量级的运用于对话系统的语言理解模型，主要由以下几个关键部分组成：

Featurization

输入语句被处理为token序列(sequence)，这些token可以是完整词汇或者是词汇的一部分，这取决于进行featurization的pipeline。DIET在每个语句的最后添加了一个用于分类的特殊token”___CLS___”。每个输入token使用”sparse features”或者”dense features”或者这两者的组合来进行featurization，这就体现了一种“可插拔”的架构设计理念。Sparse features采用了token级别的”one-hot”编码（通过词库来实现）和字符级别的n-grams(n <= 5，根据工程实践来确定)的”multi-hot”编码，字符级别的n-grams包含了大量冗余的信息，为了避免过度拟合，所以对这些sparse features使用了dropout(残差网络处理)。Dense features可以是任何预训练的词嵌入。

如果使用ConveRT这种语句级别的encoder, 那么要注意的是___CLS___的顺序，即需要设置为语句embedding的第一个token。Sparse features通过一个具有共享权重的跨所有序列的全连接神经网络来传递以达到匹配dense features维度的目的。

2. Transformer

为了对跨整个序列的上下文进行编码，使用了具有相对位置注意力机制的双层Transformer，这种Transformer架构要求它的输入和Transformer的层的维度是一样的。

3. Named Entity Recognition

标记为Yentity的序列通过Transformer上层的CRF进行预测，这里的Transformer输出序列a对应tokens的一个输入序列，下面是Entity Loss的计算公式&#x

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Gavin老师Transformer直播课感悟 - DIET:基于Transformer的轻量级多任务NLU系统（二）

一、概述DIET(Dual Intent and Entity Transformer)是一种基于Transformer的轻量级的运用于对话系统的语言理解模型，主要由以下几个关键部分组成：Featurization输入语句被处理为token序列(sequence)，这些token可以是完整词汇或者是词汇的一部分，这取决于进行featurization的pipeline。DIET在每个语句的最后添加了一个用于分类的特殊token”___CLS___”。每个输入toke...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。