中文分词十年回顾结论 黄昌宁

十年来,尤其是2003 年Bakeoff 分词评测开展以来,中文分词技术获得了长足的进步。其主要表现为: (1) 通过“分词规范+ 词表+ 分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2) 基于手工规则的分词方法在评测中不敌统计学习方法; (3) 在Bakeoff 数据上的估算表明,未登录词造成的分词精度失落至少比分词歧义大5 倍以上; (4) 因此能够大幅度提高未登录词识别性能的分词方法必将带动分词系统整体性能的提升。基于字标注的统计学习方法正是在这种背景下崭露头角的。Bakeoff 评测数据证明,这种基于字标注的分词系统优于以往的基于词(或词典) 的分词系统。回顾这十年来分词技术的进步,有什么是可供其他自然语言处理技术借鉴的经验呢? 笔者认为,由于自然语言的模糊性和复杂性,一方面,对于任何进入计算的语言对象都应当为其寻求一种可计算的定义;另一方面,对于推动任何一种应用技术的进步来说,公开、可比的评测都是至关重要的。语言对象的定义和有关这种对象的自动评测是紧密关联的,没有可计算的定义,也就不会有可信的评测。

转载于:https://www.cnblogs.com/Chinese-Coder-Clarence/articles/2410390.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值