IKAnalyzer,mmseg4j

最新推荐文章于 2017-03-29 10:57:29 发布

linshow26

最新推荐文章于 2017-03-29 10:57:29 发布

阅读量133

点赞数

文章标签： java

本文链接：https://blog.csdn.net/linshow26/article/details/84521331

版权

7、往服务中添加索引

String url = "http://localhost:8080/solr-4.4.0";

SolrServer server = new HttpSolrServer(url);

SolrInputDocument doc1 = new SolrInputDocument();

doc1.addField("id", "1");

doc1.addField("title", "信息科技");

doc1.addField("content", "企业信息门户，元数据，数字沙盘，知识管理");

server.add(docs);

server.commit();

8、查询

public static void main(String[] args) {

String url = "http://localhost:8080/solr-4.4.0";

SolrServer server = new HttpSolrServer(url);

SolrQuery query = new SolrQuery("云南");

query.setFacetLimit(1);

//以下两个参数常用作分页时使用

query.setRows(1);// 设置每次取多少条

query.setStart(0);//设置从第几条开始查询

//以下几行设置查询结果关键字高亮显示

query.setHighlight(true);

// hl.fl参数表示哪个几Field关键字段高亮

query.setParam("hl.fl", "title, content");

query.setHighlightSimplePre("<font color=red>"); query.setHighlightSimplePost("</font"); query.setSort("name",ORDER.desc);

try {

QueryResponse response = server.query(query);

SolrDocumentList docs = response.getResults();

System.out.println("文档个数：" + docs.getNumFound());

System.out.println("查询时间：" + response.getQTime());

for (SolrDocument doc : docs) {

System.out.println("title: " + doc.getFieldValue("title"));

System.out.println("content : " + doc.getFieldValue("content "));

}

} catch (Exception e) {

e.printStackTrace();

}

}

二、在solr中配置IK中文分词器

在目录solr/example/solr/collection1/conf中的 secham.xml中types标签最后添加定义字段类型。

secham.xml文件是定义的类型以及存储的域。

<fieldType name="text_ik" class="solr.TextField">

<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

</fieldType>

在field中指定字段类型为上面定义的

<field name="name" type="text_ik" indexed="true" stored="true"/>

设置完比后重启服务

在admin管理台中，由于name是IK分词器，所以分词后的效果如下：

solr4.5配置中文分词器mmseg4j
10-10 solr 罗生沙 1,079 views
solr4.x虽然提供了分词器，但不太适合对中文的分词，给大家推荐一个中文分词器mmseg4j

mmseg4j的下载地址：https://code.google.com/p/mmseg4j/

通过以下几步就可以把mmseg4j分词器集成到solr中：

1、解压mmseg4j-1.9.1.zip，把dist下面的所有jar文件拷贝到你应用服务器下的solr/WEB-INF/lib中（如果你的应用服务器下面没有solr，请参考《solr部署到tomcat》）。

2、拷贝data到solr_home/solr中（与core文件平级），并改名为dic（请参考《solr部署到tomcat》）

3、进入到你想使用mmseg4j分词器的core中（此处以solr自带的collection1为例），用编辑器打开collection1/conf/schema.xml配置文件,添加如下代码：


<fieldType name="text_mmseg4j" class="solr.TextField" >
<analyzer type="index">
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="../dic" />
</analyzer>
<analyzer type="query">
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="../dic" />
</analyzer>
</fieldType>
4、引用mmseg4j分词器

上面我们已经定义了mmseg4j分词器，如何引用呢？

用编辑器打开collection1/conf/schema.xml配置文件，找到<fields>…</fields>,修改需要使用中文分词的字段，type=”text_mmseg4j”

<fields>
.......//省略
<field name="name" type="text_mmseg4j" indexed="true" stored="true" />
</fields>
通过以上步骤就可以成功配置mmseg4j分词器到solr中了。

本文出自 luoshengsha.com，转载时请注明出处及相应链接。

本文永久链接: http://www.luoshengsha.com/170.html

Solr4.0配置IKAnalyzer

2010-11-25暂无评论solr, lucene, 搜索引擎,
IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

IK Analyzer 2012特性

1.采用了特有的“正向迭代最细粒度切分算法“，支持细粒度和智能分词两种切分模式；

2.在系统环境：Core2 i7 3.4G双核，4G内存，window 7 64位， Sun JDK 1.6_29 64位普通pc环境测试，IK2012具有160万字/秒（3000KB/S）的高速处理能力。

3.2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。

4.采用了多子处理器分析模式，支持：英文字母、数字、中文词汇等分词处理，兼容韩文、日文字符

5.优化的词典存储，更小的内存占用。支持用户词典扩展定义。特别的，在2012版本，词典支持中文，英文，数字混合词语。

下载solr & IK

1、下载solr4.0 http://www.apache.org/dyn/closer.cgi/lucene/java/4.0.0 (注：这里有及时solr的最新版本)

2、下载IKAnalyzer2012_u6.zip http://code.google.com/p/ik-analyzer/downloads/list(注：这里有IKAnalyzer及时的最新版本，也可附件直接下载)

schema.xml配置

<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"
isMaxWordLength="false"/>
<filter class="solr.SynonymFilterFactory"
synonyms="synonyms.txt"
ignoreCase="true"
expand="true"
tokenizerFactory="solr.ChineseTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.WordDelimiterFilterFactory"
generateWordParts="1"
generateNumberParts="1"
catenateWords="1"
catenateNumbers="1"
catenateAll="0" splitOnCaseChange="0"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"
isMaxWordLength="true"/>
<filter class="solr.SynonymFilterFactory"
synonyms="synonyms.txt"
ignoreCase="true"
expand="true"
tokenizerFactory="solr.ChineseTokenizerFactory"/>
<filter class="solr.StopFilterFactory"
ignoreCase="true"
words="stopwords.txt"
enablePositionIncrements="true"/>
<filter class="solr.WordDelimiterFilterFactory"
generateWordParts="1"
generateNumberParts="1"
catenateWords="0"
catenateNumbers="0"
catenateAll="0"
splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
</fieldType>
jar包加入solr的WEB-INF/lib下

将它打包放入solr.war中同时还有IK的jar包。如果你不想打包，请去附件下载已经打好的包。或者直接放IK的jar包与所打的包放入apache-tomcat-xxx\webapps\solr\WEB-INF\lib下

IK配置文件

IKAnalyzer的jar包中默认是带有IKAnalyzer.cfg.xml的配置文件的，如果想覆盖自带的配置文件，则需要在solr的WEB-INF目录中创建classes目录，将自定义的IKAnalyzer.cfg.xml拷贝到下面即可。