Solr自定义分词器-通过特殊字符分词

摘要: 在对英文句子分词的时候,一般采用采用的分词器是WhiteSpaceTokenizerFactory,有一次因业务要求,需要根据某一个特殊字符(以逗号分词,以竖线分词)分词。感觉这种需求可能与WhiteSpaceTokenizerFactory相像,于是自己根据Solr源码自定义了分词策略。

业务场景

有一次,我拿到的数据都是以竖线“|”分隔,分词的时候,需要以竖线为分词单元。比如下面的这一堆数据:
列表内容
有可能你拿到的是这样的数据,典型的例子就是来自csv文件的数据,格式和下面这种类似:
这里写图片描述

分词思路

在Solr的schema.xml文件中,有这样的配置

<fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
      <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    </analyzer>
</fieldType>

对于字段类型text_ws,指定了一个分词器工厂WhitespaceTokenizerFactory,根据这个类,可以实现通过空格来分词,那么我通过竖线分词的代码应该与之类似。

修改源码

在Java工程中引入如下jar包:

<dependency>
        <groupId>org.apache.solr</groupId>
        <artifactId>solr-core</artifactId>
        <version>6.0.0</version>
</dependency>

参照WhitespaceTokenizerFactory的源码,写一个自己的MyVerticalLineTokenizerFactory,内容基本不变:

package com.trainning.project.custom;

import java.util.Arrays;
import java.util.Collection;
import java.util.Map;

import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.core.UnicodeWhitespaceTokenizer;
import org.apache.lucene.analysis.util.TokenizerFactory;
import org.apache.lucene.util.AttributeFactory;

/**
* @author JiangChao
* @date 2017年4月2日下午3:41:13
*/
public class MyVerticalLineTokenizerFactory extends TokenizerFactory{
    public static final String RULE_JAVA = "java";
    public static final String RULE_UNICODE = "unicode";
    private static final Collection<String> RULE_NAMES = Arrays.asList(RULE_JAVA, RULE_UNICODE);

    private final String rule;

    /** Creates a new MyVerticalLineTokenizerFactory */
    public MyVerticalLineTokenizerFactory(Map<String,String> args) {
      super(args);

      rule = get(args, "rule", RULE_NAMES, RULE_JAVA);

      if (!args.isEmpty()) {
        throw new IllegalArgumentException("Unknown parameters: " + args);
      }
    }

    @Override
    public Tokenizer create(AttributeFactory factory) {
      switch (rule) {
        case RULE_JAVA:
          return new MyVerticalLineTokenizer(factory);
        case RULE_UNICODE:
          return new UnicodeWhitespaceTokenizer(factory);
        default:
          throw new AssertionError();
      }
    }
}

具体做分词的MyVerticalLineTokenizer代码如下

package com.trainning.project.custom;

import org.apache.lucene.analysis.util.CharTokenizer;
import org.apache.lucene.util.AttributeFactory;

/**
* @author JiangChao
* @date 2017年4月2日下午9:46:18
*/
public class MyVerticalLineTokenizer extends CharTokenizer {

    public MyVerticalLineTokenizer() {

    }
    public MyVerticalLineTokenizer(AttributeFactory factory) {
        super(factory);
      }

      /** Collects only characters which do not satisfy
       *  参数c指的是term的ASCII值,竖线的值为 124
       */
      @Override
      protected boolean isTokenChar(int c) {
        return !(c == 124);
      }
}

这里最主要的方法就是isTokenChar,它控制了分词的字符,如果需要使用逗号分词的话,字需要将这个方法修改成下面这样:

    /** Collects only characters which do not satisfy
     *  参数c指的是term的ASCII值,逗号的值为 44
     */
     @Override
     protected boolean isTokenChar(int c) {
        return !(c == 44);
     }

整合

代码写好了,怎么使用呢?首先,需要把刚才的java文件打成jar包。我使用的是Eclipse,直接选中两个类文件,右键 -> Export -> JAR File -> Select the export destination: ->选择输出路径,填一个jar名字:MyVerticalLineTokenizerFactory -> Finish

得到的MyVerticalLineTokenizerFactory.jar文件大约3KB,将改文件放置到.\solr_home\lib下,在shcema.xml中定义自己的field

<fieldType name="vertical_text" class="solr.TextField">
    <analyzer>
      <tokenizer class="com.trainning.project.custom.MyVerticalLineTokenizerFactory"/>
    </analyzer>
  </fieldType>
  <field name="custom" type="vertical_text" indexed="true" stored="false"/>

注意这里的class是刚才自己写的分词器的完整类名。

打开Solr主页,在Analysis页面测试一下,是否实现了预期?


代码仓库:GitHub
Jar包文件:CSDN下载

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

cj96248

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值