中文分词歧义切分:严守一把手机关了

原创 2012年03月21日 13:36:30

微博上看到白硕老师贴了一个:“一句话证明你搞过语言学” 的帖子

觉得很有意思,下面回帖的很多都是国内NLP界的人士。很多歧义切分、或者语义成分复杂的case非常有趣,

这些case能用来检测中文分词和语义理解的准确度。

整理了一些存在歧义的词条,放在本帖内:


严守一把手机关了  ---- 注:这是黄萱菁老师常举的例子,从Ngram的角度看,前后两个字能有多重组合:“严守、严守一、一把、一把手、把手、手机、机关、关了”
鸡不吃了
吉林省长春药店
乒乓球拍卖啦!
南京市长江大桥
吉林省长春药店
人大代表群体性事件
两会黑社会
代表北大的人大代表,代表人大的北大博士
赵军坑秦兵四十万于长亭
鸡不吃了,不吃鸡了
吃饭了吗?饭吃了吗
江阴毛纺织厂
薄熙来到重庆
我晓不得
小明在火车上画画
一个叫春的季节
中国队大胜韩国队,中国队大败韩国队
王冕死了父亲
周杰轮周杰伦,范伟骑范玮琪
无论我打败了猪还是我打胜了猪基本上总在说明它没赢我没输
孩子想死妈妈了
过路人等不得在此大小便
房产的一次性交易流程
无鸡鸭也可无鱼肉也可
我到东门去买米,东门人多挤又挤
台上坐着主席团
日照老年人
咬死猎人的狗


ubuntu使用scrapy爬取微信评论信息

由于微信的评论数据只能使用微信客户端查看。所以,我们使用抓包工具来获取评论的url,然后使用scrapy进行爬取。其中的fiddler (1)ubuntu安装scrapy 1、python版本必须...
  • SuNoob
  • SuNoob
  • 2015年12月07日 15:33
  • 1295

目前网络上开源的网络爬虫以及一些简介和比较

目前网络上有不少开源的网络爬虫可供我们使用,爬虫里面做的最好的肯定是google ,不过google公布的蜘蛛是很早的一个版本,下面是几种开源的网络爬虫的简单对比表: 下面我们再对Nutch、L...

NLP: 中文分词算法---交集歧义检测 (cross ambiguity detect)

中文分词中存在交集歧义检测问题, 例如“互联网金宝” 可以切分为“互联网” 和“金宝”, 也可以切分为“互联”和“网金宝”, 如何在切分过程中检测是否有交集歧义发生, 以及如果存在交集歧义的话怎么处理...

分布式搜索elasticsearch中文分词集成

elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介...

Lucene学习——IKAnalyzer中文分词(一)

一、环境 1、平台:MyEclipse8.5/JDK1.5 2、开源框架:Lucene3.6.1/IKAnalyzer2012 3、目的:测试IKAnalyzer的分词效果 二、开发调试 1...
  • CYXLZZS
  • CYXLZZS
  • 2012年09月20日 11:44
  • 25071

中文分词之HMM模型详解

关于HMM模型的介绍,网上的资料已经烂大街,但是大部分都是在背书背公式,本文在此针对HMM模型在中文分词中的应用,讲讲实现原理。 尽可能的撇开公式,撇开推导。结合实际开源代码作为例子,争取做到雅俗共...

基于HTTP协议的开源中文分词系统:HTTPCWS 1.0.0 发布

发布版本:   httpcws 1.0.0 (最新版本:2009-08-10发布)   程序网址:http://code.google.com/p/httpcws   安装使用手册:ht...

Solr学习之十二:IK Analyzer中文分词配置

一、版本信息 1.      Tomcat版本:apache-tomcat-6.0.39, 下载地址:http://tomcat.apache.org/download-60.cgi,下载32-bit...

CRF++ 中文分词(转载)

http://blog.sina.com.cn/s/blog_60439bba0100lpoa.html CRF简介 Conditional Random Field:条件随机...

linux下搭建sphinx+scws+mysql中文分词搜索,及sphinx配置文件详解

本文参考 http://blog.csdn.net/clevercode/article/details/52204124 http://blog.csdn.net/u013699800/arti...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:中文分词歧义切分:严守一把手机关了
举报原因:
原因补充:

(最多只允许输入30个字)