ERNIE，ERNIE2.0，Transformer-XL，XLNET

最新推荐文章于 2023-06-09 02:48:47 发布

smallBrilliant

最新推荐文章于 2023-06-09 02:48:47 发布

阅读量555

点赞数

分类专栏： NLP 文献笔记文章标签： transformer 自然语言处理知识图谱

本文链接：https://blog.csdn.net/qq_43149766/article/details/121140068

版权

ERNIE

贡献：通过实体和短语mask能够学习语法和句法信息的语言模型，在很多中文自然语言处理任务上达到state-of-the art。

方法：与bert类似

训练数据集：中文维基百科，百度百科，百度新闻，百度贴吧

参数： L = 12，H = 768，A = 12 （BERT BASE）

人名，地名，专有名词等都可以作为实体。

下图可以看出，a series of是一个短语，那么就要连续一起mask。后面的也是一样。

为什么只是mask而没有把实体作为输入，预测实体输出？原因就是实体的种类太多了，OOV，准确率不高。

不同级别的mask（单字、实体、短语）

输入层使用多轮对话修改NSP任务（random replace 构造负样本）

ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding （Baidu）

贡献：

数据更多： Reddit 搜索数据等

参数与BERT一致

多任务训练

Sentence level loss & word level loss

每个任务有独立的loss function， sentence task 可以和word task 一起训练。

模型结构

最低0.47元/天解锁文章

关注

专栏目录