前言
之前,香侬科技发表了基于中文的自然语言处理模型 Glyce1.0,最近,香侬又发布了 Glyce2.0。 Glyce2.0 在 Glyce1.0 的基础上将 Bert 和 Glyce 融合,在诸多自然语言处理任务及数据集上取得 SOTA 结果,其中包括:- 序列标注
- NER 命名实体识别:MSRA、OntoNotes4.0、Resume、Weibo
- POS 词性标注:CTB5/6/9、UD1
- CWS 中文分词:PKU、CityU、MSR、AS
- 句对分类:BQ Corpus、XNLI、LCQMC、NLPCC-DBQA
- 单句分类:ChnSentiCorp、Fudan、Ifeng
- 中文 SRL:CoNLL-2009
- 中文依存句法分析:CTB5.1
研究思路
中文作为世界上最典型的意音文字(Logogram),其每个字既表示语素,又表示音节,其中,最为特殊的是汉字的表意功能,即象形表意能力。尽管当今的简体字在很大程度上已经无法推知其最初的象形意义,但是汉字的发展过程依然可以给我们很多的字义信息,如下图所示:
对 NLP 而言,过去也有很多相关针对中文字形的研究,期望可以把字形表示和词向量结合,增强语义表征能力,但一直未能取得显著成功。
比如,[Liu et al., 2017, Zhang and LeCun, 2017] 未能取得一致的效果提升&#x