Solr__luence（四）Analyzer分词器

CoffeeAndIce

于 2017-08-17 22:43:53 发布

阅读量325

点赞数 1

分类专栏： solr 文章标签： solr lucene

本文链接：https://blog.csdn.net/CoffeeAndIce/article/details/77344146

版权

solr 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Analyzer分词器

英文分词

1、按空格进行分词

welcome toCSDN

2、去掉停用词(stop word)

is、an、a、the、to、for、do、in、的、得、呢、嘛、喽、嗯、吗、...

3、大写字母会全部转化成小写字母

4、还原词态

中文分词

Lucene自带中文分词器

单字分词器(StandardAnalyzer)

          lucene-analyzers-common-4.0.0.jar 
 

          中华人民共和国：中|华|人|民|共|和|国 
 

二分法分词器(CJKAnalyzer)(搞出很多不是词组的词)

          lucene-analyzers-common-4.0.0.jar 
 

          中华人民共和国：中华|华人|人民|民共|共和|和国 
 

词库分词器SmartChineseAnalyzer(需要宠大的词库)

          lucene-analyzers-smartcn-4.0.0.jar 
 

          中华人民共和国：中华人民共和国|中华人民|共和国|中华|人民 
 

IKAnalyzer分词器(第三方)

    IKAnalyzer继承Lucene的Analyzer抽象类，使用IKAnalyzer和Lucene自带的分析器方法一样，将Analyzer测试代码改为IKAnalyzer测试中文分词效果。 
  

    仅需修改 
   pom.xml 
  

 
    注意：GAV填写内容可由自己决定： 
   

<dependency>
    <groupId>com.janeluo</groupId>
    <artifactId>ikanalyzer</artifactId>
    <version>2012_u6</version>
</dependency>

自定义词库[2步]

      为了拓展分词器识别不了的词组，可以自定义词库。 
    

1、 resources下创建“IKAnalyzer.cfg.xml”，内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">/mydict.dic</entry>
<!--用户可以在这里配置自己的扩展停止词字典 -->
<!-- <entry key="ext_stopwords">/ext_stopword.dic</entry> -->
</properties>

2、同目录下添加词库文件“mydict.dic”；里面内容一行一个词，多个请换行。如果不能辨别，请在mydict.dic文件的前几行设置为空行。

       【注意】创建扩展词的文件和停用词的文件，文件的编码要是utf-8。不要用记事本保存扩展词文件和停用词文件，那样的话，格式中是含有bom的。要么就文件头部空几行。 
     

CoffeeAndIce

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Solr__luence（四）Analyzer分词器

Analyzer分词器英文分词1、按空格进行分词welcome toCSDN 2、去掉停用词(stop word)is、an、a、the、to、for、do、in、的、得、呢、嘛、喽、嗯、吗、...3、大写字母会全部转化成小写字母4、还原词态中文分词Lucene自带中文分词器单字分词器(Standa
复制链接

扫一扫