solr mysql 全文搜索_全文检索Solr集成HanLP中文分词

最新推荐文章于 2021-01-30 08:52:08 发布

Jen Lacey

最新推荐文章于 2021-01-30 08:52:08 发布

阅读量265

点赞数

文章标签： solr mysql 全文搜索

本文链接：https://blog.csdn.net/weixin_31826689/article/details/113541369

版权

以前发布过

HanLP

的

Lucene插件，后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目，那么稍微改改配置就能支持Solr)，于是就抽空做了个Solr插件出来，开源在

Github

上，欢迎改进。

HanLP中文分词solr插件支持Solr5.x，兼容Lucene5.x。

图

快速上手

2、

修改

solr core的配置文件${core}/conf/schema.xml：

Solr5中文分词器详细配置

对于新手来说，上面的两步可能太简略了，不如看看下面的

step by step。本教程使用Solr5.2.1，理论上兼容solr5.x。

放置

jar

将上述两个

jar放到solr-5.2.1/server/solr-webapp/webapp/WEB-INF/lib目录下。如果你想自定义词典等数据，将hanlp.properties放到solr-5.2.1/server/resources，该目录也是log4j.properties等配置文件的放置位置。HanLP文档一直在说“将配置文件放到resources目录下”，指的就是这个意思。作为Java程序员，这是基本常识。

启动

solr

首先在

solr-5.2.1\bin目录下启动solr：

solr start

-f

图

创建

core

在

solr-5.2.1\server\solr下新建一个目录，取个名字比如叫one，将示例配置文件solr-5.2.1\server\solr\configsets\sample_techproducts_configs\conf拷贝过来，接着修改schema.xml中的默认域type，搜索

...

替换为

11.

12.

13.

14.

15.

16.

17.

18.

19.

意思是默认文本字段类型启用

HanLP分词器，text_general还开启了solr默认的各种filter。

solr允许为不同的字段指定不同的分词器，由于绝大部分字段都是text_general类型的，可以说这种做法比较适合新手。如果你是solr老手的话，你可能会更喜欢单独为不同的字段指定不同的分词器及其他配置。如果你的业务系统中有其他字段，比如location，summary之类，也需要一一指定其type="text_general"。切记，否则这些字段仍旧是solr默认分词器，会造成这些字段“搜索不到”。

另外，切记不要在

query中开启indexMode，否则会影响PhaseQuery。indexMode只需在index中开启一遍即可，要不然它怎么叫indexMode呢。

如果你不需要

solr提供的停用词、同义词等filter，如下配置可能更适合你：

10.

11.

12.

完成了之后在

solr的管理界面导入这个core one：

图

接着就能在下拉列表中看到这个

core了：

图

上传测试文档

修改好了，就可以拿一些测试文档来试试效果了。

hanlp-solr-plugin代码库中的src/test/resources下有个测试文档集合documents.csv，其内容如下：

id,title

1,你好世界

2,商品和服务

3,和服的价格是每镑15便士

4,服务大众

5,hanlp工作正常

代表着

id从1到5共五个文档，接下来复制solr-5.2.1\example\exampledocs下的上传工具post.jar到resources目录，利用如下命令行将数据导入：

java

-Dc=one -Dtype=application/csv -jar post.jar *.csv

Windows用户的话直接双击该目录下的upload.cmd即可，Linux用户运行upload.sh。

正常情况下输出如下结果：

SimplePostTool version 5.0.0

Posting files to [base] url http://localhost:8983/solr/one/update using content-

type application/csv...

POSTing file documents.csv to [base]

1 files indexed.

COMMITting Solr index changes to http://localhost:8983/solr/one/update...

Time spent: 0:00:00.059

请按任意键继续

. . .

同时刷新一下

core one的Overview，的确看到了5篇文档：

图

搜索文档

是时候看看

HanLP分词的效果了，点击左侧面板的Query，输入“和服”试试：

图

发现精确地查到了

“

和服

的价格是每镑

15便士”，而不是“商品

和服

务

”这种错误文档：

图

这说明

HanLP工作良好。

要知道，不少中文分词器眉毛胡子一把抓地命中

“商品和服务”这种错误文档，降低了查准率，拉低了用户体验，跟原始的MySQL LIKE有何区别？

索引模式的功能

索引模式可以对长词进行全切分，得到其中蕴含的所有词汇。比如

“中医药大学附属医院”在HanLP索引分词模式下的切分结果为：

中

0 医1 药2 大3 学4 附5 属6 医7 院8

[0:3 1] 中医药/n

[0:2 1] 中医/n

[1:3 1] 医药/n

[3:5 1] 大学/n

[5:9 1] 附属医院/nt

[5:7 1] 附属/vn

[7:9 1] 医院/n

开启

indexMode后，无论用户搜索“中医”“中医药”还是“医药”，都会搜索到“中医药大学附属医院”：

图

高级配置

目前本插件支持如下基于

schema.xml的配置:

图

对于更高级的配置，

HanLP分词器主要通过class path下的hanlp.properties进行配置，请阅读

HanLP自然语言处理包文档

以了解更多相关配置，如：

停用词

用户词典

词性标注

……

代码调用

在

Query改写的时候，可以利用HanLPAnalyzer分词结果中的词性等属性，如

String text = "中华人民共和国很辽阔";

for (int i = 0; i

{

System.out.print(text.charAt(i) + "" + i + " ");

}

System.out.println();

Analyzer analyzer = new HanLPAnalyzer();

TokenStream tokenStream = analyzer.tokenStream("field", text);

tokenStream.reset();

10.

while (tokenStream.incrementToken())

11.

{

12.

CharTermAttribute attribute = tokenStream.getAttribute(CharTermAttribute.class);

13.

// 偏移量

14.

OffsetAttribute offsetAtt = tokenStream.getAttribute(OffsetAttribute.class);

15.

// 距离

16.

PositionIncrementAttribute positionAttr = kenStream.getAttribute(PositionIncrementAttribute.class);

17.

// 词性

18.

TypeAttribute typeAttr = tokenStream.getAttribute(TypeAttribute.class);

19.

System.out.printf("[%d:%d %d] %s/%s\n", offsetAtt.startOffset(), offsetAtt.endOffset(), positionAttr.getPositionIncrement(), attribute, typeAttr.type());

20.

}

在另一些场景，支持以自定义的分词器(比如开启了命名实体识别的分词器、繁体中文分词器、

CRF分词器等)构造HanLPTokenizer，比如：

tokenizer = new HanLPTokenizer(HanLP.newSegment()

.enableJapaneseNameRecognize(true)

.enableIndexMode(true), null, false);

tokenizer.setReader(new StringReader("林志玲亮相网友:确定不是波多野结衣？"));

...

反馈

技术问题请

在