tesseract4.0.0 中文语言包_NeurIPS 2019 | 香侬科技开源Glyce2.0,中文字形增强BERT表征能力...

54f51720da0399aea66445385000df29.gif

文章标题: Glyce: Glyph-vectors for Chinese Character Representations  文章链接: https://arxiv.org/pdf/1901.10125.pdf  文章作者: Yuxian Meng, Wei Wu, Fei Wang, Xiaoya Li et al.  收录情况: Accepted by NeurIPS 2019  开源链接: https://github.com/ShannonAI/glyce  研究方向: 自然语言处理

647c80514bcf30afa46775b2b9478c32.png

前言

之前,香侬科技发表了基于中文的自然语言处理模型 Glyce1.0,最近,香侬又发布了 Glyce2.0。 Glyce2.0 在 Glyce1.0 的基础上将 Bert 和 Glyce 融合,在诸多自然语言处理任务及数据集上取得 SOTA 结果,其中包括: 
  • 序列标注
    • NER 命名实体识别:MSRA、OntoNotes4.0、Resume、Weibo
    • POS 词性标注:CTB5/6/9、UD1
    • CWS 中文分词:PKU、CityU、MSR、AS
  • 句对分类:BQ Corpus、XNLI、LCQMC、NLPCC-DBQA
  • 单句分类:ChnSentiCorp、Fudan、Ifeng
  • 中文 SRL:CoNLL-2009
  • 中文依存句法分析:CTB5.1

研究思路

中文作为世界上最典型的意音文字(Logogram),其每个字既表示语素,又表示音节,其中,最为特殊的是汉字的表意功能,即象形表意能力。尽管当今的简体字在很大程度上已经无法推知其最初的象形意义,但是汉字的发展过程依然可以给我们很多的字义信息,如下图所示:

c15d18d8554807b893c608a360b4222a.png

对 NLP 而言,过去也有很多相关针对中文字形的研究,期望可以把字形表示和词向量结合,增强语义表征能力,但一直未能取得显著成功。 

比如,[Liu et al., 2017, Zhang and LeCun, 2017] 未能取得一致的效果提升&#x

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值