中文分词器的总结

0 —— Lucene & Nutch是一种神奇的东西,包含了语义分析,自然语言处理,中文分析,网络爬取,索引建立,html解析等,下面介绍几种常用的中文分词工具


                                                                                               图 搜索引擎的框架

1 —— StandardAnalyzer标准分析器,能够根据空格、符号、数字、字母、E-mail地址、IP地址以及中文字符的分析处理分割原始的文本信息,还可以支持过滤词表,用来替代StopAnalyzer能够完成的过滤功能。只是,中文文字没有完成中文分词的功能,只是按照单个的汉字进行了分割。

2 —— CJKAnalyzer 是专门用于中文文档处理的分析器,继承自org.apache.lucene.analysis.Analyzer类调用,内部CJKAnalyzer 分词器对中文进行切分,同时使用StopFilter过滤器来完成过滤功能,可以实现中文的多元切分和停用词过滤。CJKAnalyzer 中文分析器是lucene-2.3.0源代码目录下contrib目录下analyzers的lucene-analyzer-2.3.0.jar提供的功能。构造函数提供了默认的STOP_WORDS停用词表,当然也可以通过外部输入停用词表来代替。

3 —— IK_CAnalyzer中文分析器实现了以词典分词(目前比较流行的方法)为基础的正反向全切分,以及正反向最大匹配切分两种方法,

IK_CAnalyzer是第三方实现的分析器,继承自Lucene的Analyzer类,针对中文文本进行处理。全切分算法是一种中文分词方法,针对一个句子,对所有可能的词汇切分结果,指数级增长,时空开销非常大。


                                                                                        图 网络蜘蛛的建立

4 —— 中文分词遇到的问题

中文的切分歧义是指中文的一句话按照指定的算法可能有两种或者更多的切分方法,而且有些句子,人理解起来也存在歧义问题,更何况计算机呢?
未收录词的识别,一些新词汇、未收录的地名,针对未收录的词,目前采用基于规则和基于统计两种办法进行处理,另外还采用通过机器学习识别新词,机器学习识别信息的好处在于自动寻找一些识别新词的特征,但机器学习算法需要有足够的训练语料,人工准本大规模的训练语料也会十分困难。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值