java solr 分词器,Solr通过特殊字符分词实现自定义分词器详解

最新推荐文章于 2023-02-21 22:16:45 发布

Damien丶

最新推荐文章于 2023-02-21 22:16:45 发布

阅读量283

点赞数

文章标签： java solr 分词器

前言

我们在对英文句子分词的时候，一般采用采用的分词器是whitespacetokenizerfactory，有一次因业务要求，需要根据某一个特殊字符(以逗号分词，以竖线分词)分词。感觉这种需求可能与whitespacetokenizerfactory相像，于是自己根据solr源码自定义了分词策略。

业务场景

有一次，我拿到的数据都是以竖线“|”分隔，分词的时候，需要以竖线为分词单元。比如下面的这一堆数据：

有可能你拿到的是这样的数据，典型的例子就是来自csv文件的数据，格式和下面这种类似：

分词思路

在solr的schema.xml文件中，有这样的配置

对于字段类型text_ws，指定了一个分词器工厂whitespacetokenizerfactory，根据这个类，可以实现通过空格来分词，那么我通过竖线分词的代码应该与之类似。

修改源码

在java工程中引入如下jar包：

参照whitespacetokenizerfactory的源码，写一个自己的myverticallinetokenizerfactory，内容基本不变：

具体做分词的myverticallinetokenizer代码如下

这里最主要的方法就是istokenchar，它控制了分词的字符，如果需要使用逗号分词的话，字需要将这个方法修改成下面这样：

整合

代码写好了，怎么使用呢？首先，需要把刚才的java文件打成jar包。我使用的是eclipse，直接选中两个类文件，右键 -> export -> jar file -> select the export destination: ->选择输出路径，填一个jar名字：myverticallinetokenizerfactory -> finish

得到的myverticallinetokenizerfactory.jar文件大约3kb，将改文件放置到.\solr_home\lib下，在shcema.xml中定义自己的field

注意这里的class是刚才自己写的分词器的完整类名。

打开solr主页，在analysis页面测试一下，是否实现了预期？

源码下载：

github：下载地址

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对服务器之家的支持。

原文链接：http://blog.csdn.net/jiangchao858/article/details/68954044

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java solr 分词器,Solr通过特殊字符分词实现自定义分词器详解

前言我们在对英文句子分词的时候，一般采用采用的分词器是whitespacetokenizerfactory，有一次因业务要求，需要根据某一个特殊字符(以逗号分词，以竖线分词)分词。感觉这种需求可能与whitespacetokenizerfactory相像，于是自己根据solr源码自定义了分词策略。业务场景有一次，我拿到的数据都是以竖线“|”分隔，分词的时候，需要以竖线为分词单元。比如下面的这一堆数...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。