tesseract4.0.0 中文语言包_NeurIPS 2019 | 香侬科技开源Glyce2.0，中文字形增强BERT表征能力...

最新推荐文章于 2024-01-22 16:01:05 发布

weixin_39631755

最新推荐文章于 2024-01-22 16:01:05 发布

阅读量144

点赞数

文章标签： tesseract4.0.0 中文语言包

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39631755/article/details/111361590

版权

文章标题： Glyce: Glyph-vectors for Chinese Character Representations 文章链接： https://arxiv.org/pdf/1901.10125.pdf 文章作者： Yuxian Meng, Wei Wu, Fei Wang, Xiaoya Li et al. 收录情况： Accepted by NeurIPS 2019 开源链接： https://github.com/ShannonAI/glyce 研究方向： 自然语言处理

前言

之前，香侬科技发表了基于中文的自然语言处理模型 Glyce1.0，最近，香侬又发布了 Glyce2.0。 Glyce2.0 在 Glyce1.0 的基础上将 Bert 和 Glyce 融合，在诸多自然语言处理任务及数据集上取得 SOTA 结果，其中包括：

序列标注
- NER 命名实体识别：MSRA、OntoNotes4.0、Resume、Weibo
- POS 词性标注：CTB5/6/9、UD1
- CWS 中文分词：PKU、CityU、MSR、AS
句对分类：BQ Corpus、XNLI、LCQMC、NLPCC-DBQA
单句分类：ChnSentiCorp、Fudan、Ifeng
中文 SRL：CoNLL-2009
中文依存句法分析：CTB5.1

研究思路

中文作为世界上最典型的意音文字(Logogram)，其每个字既表示语素，又表示音节，其中，最为特殊的是汉字的表意功能，即象形表意能力。尽管当今的简体字在很大程度上已经无法推知其最初的象形意义，但是汉字的发展过程依然可以给我们很多的字义信息，如下图所示：

对 NLP 而言，过去也有很多相关针对中文字形的研究，期望可以把字形表示和词向量结合，增强语义表征能力，但一直未能取得显著成功。

比如，[Liu et al., 2017, Zhang and LeCun, 2017] 未能取得一致的效果提升&#x

最低0.47元/天解锁文章

weixin_39631755

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
tesseract4.0.0 中文语言包_NeurIPS 2019 | 香侬科技开源Glyce2.0，中文字形增强BERT表征能力...

文章标题：Glyce: Glyph-vectors for Chinese Character Representations文章链接：https://arxiv.org/pdf/1901.10125.pdf文章作者：Yuxian Meng, Wei Wu, Fei Wang, Xiaoya Li et al.收录情况：Accepted by NeurIPS 2019开源链接：h...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。