NLP11:中文分词综述

1.中文分词的发展历程

对380篇英文文献进行分析,大多是会议论文,来源包括ACL、EMNLP、COLING、IJCNLP等,收录最多的是ACL。SIGHAN是国际计算语言学协会中文处理特别兴趣组。SIGHAN采用多家机构的评测数据组织多次评测(即BakeOff),评测使用封闭测试和开放测试两种方法。封闭测试只允许使用固定训练语料学习相应的模型,而开放测试可以使用任意资源。测试使用的评价标准包括准确率、召回率和F值。其中对比的是人工标注的数据集。CIPS-SIGHAN为中文处理资源与评测国际会议。

以SIGHAN和CIPS-SIGHAN的评测为主线,展示历届评测的重点内容和相关联的国际会议、时间,如下图所示。图中左侧使用不同颜色矩形框区分各个会议,圆形中的数字表示举办到第几届,评测与会议联合举办则增加了连线。

image-20201022211145828

SIGHAN2005提供的数据集包括训练集、测试集以及测试集黄金分割标准,除此之外还提供一个用于评分的脚本。比赛数据包括简体中文的北京大学PKU数据集和微软研究院MSR数据集;繁体中文的CityU数据集和AS数据集。

image-20201022212202458

image-20201022212608319

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值