中文分词内容集锦

1. http://lcl.cnblogs.com/archive/2006/01/27/323742.html

 

2. http://search.cpan.org/dist/Lingua-ZH-WordSegment/

3. http://blog.csdn.net/caohao2008/article/details/5697626

4.

中文分词

       中文分词是使用的中科院ictclas开源分词软件,该程序分词效果较好,识别正确率特别是NE的识别率很高,而且处理的速度很快。其中中国人名的识别召回率接近98%,分词和词性标注处理速度为543.5KB/s

       我分析了一下该分词系统的源代码,源代码写的很巧妙,并且使用他们的两个研究成果。(通过阅读论文《HMMM-based Chinese Lexical Analyzer ICTCLAS-0711》和《基于N-最短路径方法的中文词语粗分模型》)。

他们是使用的基于N-最短路径方法进行中文词的切分,使用的借助于词典的统计模型。基本思想是快速搜索出前N个最优化路径,然后对这N个路径求概率,概率最高的那条路径就是切分的路径。基本思想是:根据词典,找出字串中所有可能的词,构造词语切分有向无环图。每个词对应图中的一条有向边,并赋给相应的边长(权值)。然后针对该切分图,在起点到终点的所有路径中,求出长度值按严格升序排列(任何两个不同位置上的值一定不等,下同)依次为第1, 第2,第i,第N 的路径集合作为相应的粗分结果集。如果两条或两条以上路径长度相等,那么他们的长度并列第i,都要列入粗分结果集,而且不影响其他路径的排列序号,最后的粗分结果集合大小大于或等于N

使用HHMM方法进行词性标注。使用了多层的HMM模型(总共五层)。

http://blog.csdn.net/caohao2008/article/details/1606199

5. 现在常用的是从左到右最大匹配和从右到左反向最大匹配的结合算法,取分词最小的一个结果。分词数相同时取反向最大匹配。因为中文往往倾向以单词结束句子而不是单字。
不过单纯的中文分词和语义识别还是区别很大的,例如统计分词法就不能用来做语义识别……

发现我们的LTP(http://ir.hit.edu.cn/demo/ltp/)处理上面提到的两个句子还是没问题的。网路新词可否通过百科这种UGC自动丰富呢?!(当然,不是直接爬取加入词表就行的,还要验证其质量,可信程度,如紧密度,频率!)

逆向最大匹配其实算是基础算法里比较好的
未登录词的问题, 工业界通过算法来做的好像没什么动静, 通过集体智慧的方式积累语料, 快速添加新词, 工业界都这么折腾. 各大公司都在做输入法软件, 搜索引擎的检索词什么的也是发现新词的好语料.

6.

我在想一件事情,中文划词里面是否可以引入这样的机制:
1,找出动词;
2,找出这个动词之后可以跟那些适配的名词、形容词和副词,这里一般可以分为三种:1,动+名\副;2,动+名+副;3,名\副+动。
3,找出这个动词之后与之前的适配词,如果能找到则表示这的确是一个动词,如果不能那就表示这要么是划分错误,要么就是人名。

比如“他说的确实在里”,如果将“说”当作是一个动词,那么后面要么是名词,要么是副词,而且也不是所有副词都适合修饰“说”。而在这个句子中,“说”后面跟着的是“的确”前面是“他”,但“的确”作为后置副词的时候是不能用来修饰“说”的,除非是前置副词,所以这里“说”就不是一个合格的动词,划分错误,只能划分“说的”,是一个名词。
还比如“费孝通向人大常委会提交书面报告”,可以划分为“费孝”“通向”“人大常委会”“提交”“书面报告”,但“通向”作为动词且后置是一个名词的时候,第三部分跟的就不能是动词“提交”,所以不能将“通向”看作是一个动词来用。而“向”作为动词,其后跟一个名词的时候第三部分可以是动词也可以是名词,所以符合要求,这么一来“费孝通”就只能是名字了。
“邓颖超生前使用过的物品”也是如此,“超生”作为动词的话,后置副词不可能是“前”,一般都说“XXX永不超生”,没说超生还分前后的。当然,这里就要引入一定的使用概率了。
当然,这样的做法似乎对于“一次性生活补助”是没啥作用的,因为也的确可能出现“一次”“性生活”“补助”的用法,而“佟大为妻子生下一名女婴”这个没话说,这种用法的确有,而且如果一个正常人类不知道栋大为这个人的话,也的确会想:咋还有为妻子生孩子的男人?

 

7.

现在中文分词工具一般都用CRF来做吧,效果算是比较好的。基本都拿统计方法来做了。
未登录词OOV的确是很头疼的,许多新生的词“飞信”这样的,往往都是别不出来。不知道通过动态的更新词典能否解决这个问题。

1.看来这东西,好的算法必须要用概率。。
2.人应该是同时进行分词和语法解析的,不太可能不考虑语法就特别好的完成分词。。。

8.

现在做统计的有两类方法较常见:字在词语中的位置信息;字与字之间是否切分的信息;当然都要考虑上下文信息。但机器学习方法耗费资源巨大,没投入使用。

 9. http://www.google.com.hk/ggblog/googlechinablog/2006/04/blog-post_2507.html

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值