中文分词歧义切分:严守一把手机关了

原创 2012年03月21日 13:36:30

微博上看到白硕老师贴了一个:“一句话证明你搞过语言学” 的帖子

觉得很有意思,下面回帖的很多都是国内NLP界的人士。很多歧义切分、或者语义成分复杂的case非常有趣,

这些case能用来检测中文分词和语义理解的准确度。

整理了一些存在歧义的词条,放在本帖内:


严守一把手机关了  ---- 注:这是黄萱菁老师常举的例子,从Ngram的角度看,前后两个字能有多重组合:“严守、严守一、一把、一把手、把手、手机、机关、关了”
鸡不吃了
吉林省长春药店
乒乓球拍卖啦!
南京市长江大桥
吉林省长春药店
人大代表群体性事件
两会黑社会
代表北大的人大代表,代表人大的北大博士
赵军坑秦兵四十万于长亭
鸡不吃了,不吃鸡了
吃饭了吗?饭吃了吗
江阴毛纺织厂
薄熙来到重庆
我晓不得
小明在火车上画画
一个叫春的季节
中国队大胜韩国队,中国队大败韩国队
王冕死了父亲
周杰轮周杰伦,范伟骑范玮琪
无论我打败了猪还是我打胜了猪基本上总在说明它没赢我没输
孩子想死妈妈了
过路人等不得在此大小便
房产的一次性交易流程
无鸡鸭也可无鱼肉也可
我到东门去买米,东门人多挤又挤
台上坐着主席团
日照老年人
咬死猎人的狗


版权声明:

相关文章推荐

NLP: 中文分词算法---交集歧义检测 (cross ambiguity detect)

中文分词中存在交集歧义检测问题, 例如“互联网金宝” 可以切分为“互联网” 和“金宝”, 也可以切分为“互联”和“网金宝”, 如何在切分过程中检测是否有交集歧义发生, 以及如果存在交集歧义的话怎么处理...

Solr4.7.0中整合中文分词mmseg4j-1.9.1

原文:http://www.tuicool.com/articles/67BFFz   刚接触Lucene2.x和Solr2.x的时候,谈到中文分词,会让我立即想到用庖丁中文分词,庖丁中文分词因巨大的...

Solr 配置中文分词smartcn

solr的同步发行包smartcn可进行中文切词,smartcn的分词准确率不错,但就是不能自己定义新的词库,不过smartcn是跟solr同步的,所以不需要额外的下载,只需在solr的例子中拷贝进去...

Solr5.0配置中文分词包

Solr中默认的中文分词是用Lucene的一元分词包。 现在说明在Solr5.0中配置Lucene的SmartCN中文分词包。1,进入Solr的安装目录,我这里是:/root/nutch/solr-...

Lucene学习——IKAnalyzer中文分词(二)

一、环境 1、平台:MyEclipse8.5/JDK1.5 2、框架:Lucene3.6.1/IKAnalyzer2012/htmlparser 二、目标 1、整合前面连篇文章(Lucene学...

Python中文分词 jieba 十五分钟入门与进阶

整体介绍jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,博主十分推荐 github:https://github.com/fxsjy/jieba...

自然语言处理--中文分词之机械分词

说到自然语言处理,对于中文首当其冲的就是分词。     和西方语言不同,中文句子中不像英语,每个单词间有空格隔开,而是全部连在一起,词间没有明显的界限。这就为我们的翻译、检索等等更高级的信息处理...

统计中文分词(最大熵)

在机器学习中,序列标注(Sequence labeling)是一种常见的模式识别任务,它用来给一组可观察对象打上状态(类别)标签。它可以解决NLP中的分词(Word Segement)、词性标注(Pa...
  • ahmanz
  • ahmanz
  • 2016-04-08 09:31
  • 1669

中文分词软件包的使用

中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词...

Lucene开发实例教程:Lucene中文分词、分页查询、高亮显示

1、准备工作 下载lucene 3.6.1 : http://lucene.apache.org/ 下载中文分词IK Analyzer: http://code.google.co...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)