《ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information》阅读记录

最新推荐文章于 2024-04-26 09:36:03 发布

帅气的琳仔

最新推荐文章于 2024-04-26 09:36:03 发布

阅读量349

点赞数

分类专栏：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42546799/article/details/119317905

版权

《ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information》

Zijun Sun, Xiaoya Li, Xiaofei Sun, Yuxian Meng, Xiang Ao, Qing He, Fei Wu and Jiwei Li

ACL 2021

https://github.com/ShannonAI/Ch

参考内容：https://zhuanlan.zhihu.com/p/386010496

官方给出的解释超级详细↑，本篇主要属于自己的记录，加深个印象，求轻吐槽!!!∑(ﾟДﾟノ)ノ

摘要

问题：最近的中文预训练模型都忽视了中文的两个重要方面：字形、拼音，这两方面都含有对语言理解非常重要的句法和语义信息。

本文：ChineseBERT

融合中文字符的拼音、字形信息加入预训练过程。
字形嵌入：基于中文字符的不同字体，从可视的表面字符形式中捕捉字符语义，便于能够捕捉视觉特征。
拼音嵌入：表征了汉字的读音，对共享相同字符形式的不同语义进行建模，从而绕过了单个字符后面的互连语素的限制，处理了汉语中高度普遍的异音（多音字）现象。

在大规模未标记的中文语料库上进行预处理后，性能有所提升。

在很多中文中文自然语言处理任务上，达到了SOTA水平。

结论

大规模预处理的中文自然语言处理模型

利用汉字的字形和拼音信息，来增强模型从表面字符形式中捕捉上下文语义和消除汉语多音字歧义的能力。

在广泛的中文自然语言处理任务中取得了显著的性能提升。

在训练数据较少的情况下比普通的预训练模型表现更好。

未来工作

训练一个规模更大的ChineseBERT

介绍

大规模预训练模型，已经成为各种自然语言处理任务的基础。除了英语自然语言处理任务外，对汉语也很有效。但由于预训练模型是为英语设计的，所以缺少了汉语方面的两个重要特征，字形和拼音。

汉字是一种意音文字（偏旁部首氵），故字形会带有语义。有团队研究过，将字形融入到神经模型中，但没有大规模的预训练（ (Sun et al., 2014; Shi et al., 2015; Liu et al., 2017; Dai and Cai, 2017; Su and Lee, 2017; Meng et al., 2019)）。

拼音在建模语义和语法信息方面至关重要，这些信息不能通过上下文或字形嵌入来获取。多音字会有不同含义，如“乐”，拼音有助于识别字符的词性。字形嵌入和字符标识嵌入都指向同一个字符标识，不包含发音信息。

模型

概述

对于每个汉字字符，字嵌入（Char Embedding）、字形嵌入（Glyp

最低0.47元/天解锁文章

帅气的琳仔

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
《ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information》阅读记录

《ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information》Zijun Sun, Xiaoya Li, Xiaofei Sun, Yuxian Meng, Xiang Ao, Qing He, Fei Wu and Jiwei LiACL 2021https://github.com/ShannonAI/Ch参考内容：https://zhuanlan.zhihu.com/p/386010496
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。