Solr__luence(四)Analyzer分词器

Analyzer分词器

英文分词



1、按空格进行分词

welcome toCSDN  

2、去掉停用词(stop word)

is、an、a、the、to、for、do、in、的、得、呢、嘛、喽、嗯、吗、...

3、大写字母会全部转化成小写字母

4、 还原词态

中文分词



Lucene自带中文分词器

 单字分词器(StandardAnalyzer)
       lucene-analyzers-common-4.0.0.jar
       中华人民共和国:中|华|人|民|共|和|国
 二分法分词器(CJKAnalyzer)(搞出很多不是词组的词)
       lucene-analyzers-common-4.0.0.jar
       中华人民共和国:中华|华人|人民|民共|共和|和国
词库分词器SmartChineseAnalyzer(需要宠大的词库)
       lucene-analyzers-smartcn-4.0.0.jar
       中华人民共和国:中华人民共和国|中华人民|共和国|中华|人民


IKAnalyzer分词器(第三方)

IKAnalyzer继承Lucene的Analyzer抽象类,使用IKAnalyzer和Lucene自带的分析器方法一样,将Analyzer测试代码改为IKAnalyzer测试中文分词效果。
仅需修改 pom.xml
注意:GAV填写内容可由自己决定:
<dependency>
    <groupId>com.janeluo</groupId>
    <artifactId>ikanalyzer</artifactId>
    <version>2012_u6</version>
</dependency>


自定义词库[2步]
为了拓展分词器识别不了的词组,可以自定义词库。
1、 resources下创建“IKAnalyzer.cfg.xml”,内容如下:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">/mydict.dic</entry>
<!--用户可以在这里配置自己的扩展停止词字典 -->
<!-- <entry key="ext_stopwords">/ext_stopword.dic</entry> -->
</properties>
2、 同目录下添加词库文件“mydict.dic”;里面内容一行一个词,多个请换行。如果不能辨别,请在mydict.dic文件的前几行设置为空行。
【注意】创建扩展词的文件和停用词的文件,文件的编码要是utf-8。不要用记事本保存扩展词文件和停用词文件,那样的话,格式中是含有bom的。要么就文件头部空几行。



  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值