要在中文的项目中使用 Solr ,少不了要集成中文分词组件。本篇以 IK2012 分词为例,讲解如何在 solr 3.5 中及集成中文分词,使用 IK 的原因 IK 比其他中文分词维护的勤快,和 Solr 集成也相对容易。
首先需要弄到 IKAnalyzer2012.jar ,可以从这里下载到
这里选择 IKAnalyzer2012_u5.zip 下载,下载后解压,将解压出来的 IKAnalyzer2012.jar 复制出来。在 D:\apache-solr-3.5.0\example\solr 下新建 lib 目录,将 IKAnalyzer2012.jar 放入 lib 下。打开 “D:\apache-solr-3.5.0\example\solr\conf\schema.xml” ,在 types 节点下 添加
<
fieldType
name
=
"text_zh"
class
=
"solr.TextField"
positionIncrementGap
=
"100"
>
<
analyzer
type
=
"index"
>
<
tokenizer
class
=
"org.wltea.analyzer.solr.IKTokenizerFactory"
useSmart
=
"false"
/>
</
analyzer
>
<
analyzer
type
=
"query"
>
<
tokenizer
class
=
"org.wltea.analyzer.solr.IKTokenizerFactory"
useSmart
=
"false"
/>
</
analyzer
>
</
fieldType
>
然后在 fields 节点下引用 text_zh 这一字段类型,如下所示:
|
<
field
name
=
"title"
type
=
"text_zh"
indexed
=
"true"
stored
=
"true"
/>
|
这样标题字段就支持中文分词了。
原文地址:http://www.solrcn.com/?tag=solr%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D