java 中定义solr字段,java-自定义Solr TokenFilter lemmatizer

我正在尝试编写用于字段类型的简单Solr lemmatizer,但是我似乎找不到有关编写TokenFilter的任何信息,因此我有点迷失了.这是我到目前为止的代码.

import java.io.IOException;

import java.util.List;

import org.apache.lucene.analysis.TokenFilter;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;

import org.slf4j.Logger;

import org.slf4j.LoggerFactory;

class FooFilter extends TokenFilter {

private static final Logger log = LoggerFactory.getLogger(FooFilter.class);

private final CharTermAttribute termAtt = addAttribute(CharTermAttribute.class);

private final PositionIncrementAttribute posAtt = addAttribute(PositionIncrementAttribute.class);

public FooFilter(TokenStream input) {

super(input);

}

@Override

public boolean incrementToken() throws IOException {

if (!input.incrementToken()) {

return false;

}

char termBuffer[] = termAtt.buffer();

List allForms = Lemmatize.getAllForms(new String(termBuffer));

if (allForms.size() > 0) {

for (String word : allForms) {

// Now what?

}

}

return true;

}

}

最佳答案

接下来,您要用单词替换或附加当前令牌termAtt.

样本替换语义

termAtt.setEmpty();

termAtt.copyBuffer(word.toCharArray(), 0, word.length());

添加新令牌的示例语义

对于要添加的每个令牌,必须设置CharTermAttribute属性,并设置递增令牌例程以返回true.

private List extraTokens = ...

public boolean incrementToken() {

if (input.incrementToken()){

// ...

return true;

} else if (!extraTokens.isEmtpy()) {

// set the added token and return true

termAtt.setTerm(extraTokens.remove(0));

return true;

}

return false;

}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值