Lucene-分词器(三)

最新推荐文章于 2024-10-01 18:51:18 发布

chixian3322

最新推荐文章于 2024-10-01 18:51:18 发布

阅读量111

点赞数

文章标签： java 人工智能

原文链接：https://my.oschina.net/u/2551035/blog/818164

版权

1.什么是分词

分词器能以某种规则对关键字进行分词,将分好的词放到目录中,以作为检索到的条件,在创建索引时会使用到分词器,在搜索时也将用到分词器。

2.分词器的一般工作流程

2.1切分关键词

2.2去除停用词

2.3对于英文单词,把所有字母转为小写

拿我所用的ik分词器为例

IKAnalyzer.cfg.xml

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
	<comment>IK Analyzer 扩展配置</comment>

	<!-- 用户可以在这里配置自己的扩展字典 -->
	<entry key="ext_dict">/mydict.dic</entry>


	<!--用户可以在这里配置自己的扩展停止词字典 -->
	<entry key="ext_stopwords">/surname.dic</entry>


</properties>

他运行时会自动加载这两个文件(这两个文件位置要和这个xml文件在同一地方)

3.Ik分词器

ik分词器自2012年后就暂停更新，而lucene却在不断的更新，导致ik分词器在新版本的lucene中使用会出现错误，所以出现Ik重构的代码来消除这个错误

首先引入依赖

'''
        <dependency>
            <groupId>com.janeluo</groupId>
            <artifactId>ikanalyzer</artifactId>
            <version>2012_u6</version>
        </dependency>
'''

分词器的核心类Analyzer,TokenStream,Tokenizer,TokenFilter.

Analyzer

Lucene中的分词器有StandardAnalyzer,StopAnalyzer,SimpleAnalyzer,WhitespaceAnalyzer.

TokenStream

分词器做好处理之后得到的一个流,这个流中存储了分词的各种信息.可以通过TokenStream有效的获取到分词单元

Tokenizer

主要负责接收字符流Reader,将Reader进行分词操作.

TokenFilter

将分好词的语汇单元进行各种各样的过滤.

代码是网上找的，如果你是作者请联系我附上署名

有两个文件 MyIKTokenizer和MyIkAnalyzer

package net.begincode.lucene.analyzer;

import java.io.IOException;
import java.io.Reader;

import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;


public class MyIKTokenizer extends Tokenizer {
    // IK分词器实现
    private IKSegmenter _IKImplement;

    // 词元文本属性
    private final CharTermAttribute termAtt;
    // 词元位移属性
    private final OffsetAttribute offsetAtt;
    // 词元分类属性（该属性分类参考org.wltea.analyzer.core.Lexeme中的分类常量）
    private final TypeAttribute typeAtt;
    // 记录最后一个词元的结束位置
    private int endPosition;

    public MyIKTokenizer(Reader in) {
        this(in, false);
    }

    public MyIKTokenizer(Reader in, boolean useSmart) {
        offsetAtt = addAttribute(OffsetAttribute.class);
        termAtt = addAttribute(CharTermAttribute.class);
        typeAtt = addAttribute(TypeAttribute.class);
        _IKImplement = new IKSegmenter(input, useSmart);
    }

    @Override
    public boolean incrementToken() throws IOException {
        // 清除所有的词元属性
        clearAttributes();
        Lexeme nextLexeme = _IKImplement.next();
        if (nextLexeme != null) {
            // 将Lexeme转成Attributes
            // 设置词元文本
            termAtt.append(nextLexeme.getLexemeText());
            // 设置词元长度
            termAtt.setLength(nextLexeme.getLength());
            // 设置词元位移
            offsetAtt.setOffset(nextLexeme.getBeginPosition(),
                    nextLexeme.getEndPosition());
            // 记录分词的最后位置
            endPosition = nextLexeme.getEndPosition();
            // 记录词元分类
            typeAtt.setType(nextLexeme.getLexemeTypeString());
            // 返会true告知还有下个词元
            return true;
        }
        // 返会false告知词元输出完毕
        return false;
    }

    public void reset() throws IOException {
        super.reset();
        _IKImplement.reset(input);
    }

    @Override
    public final void end() {
        // set final offset
        int finalOffset = correctOffset(this.endPosition);
        offsetAtt.setOffset(finalOffset, finalOffset);
    }

}

为什么要使用MyIKTokenizer来继承Tokenizer 因为在原有的IKTokenizer中里面多了一个

super(in);这段代码而5.0以上版本的Lucene的父类中已经取消了这个构造方法

package net.begincode.lucene.analyzer;

import java.io.Reader;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.util.IOUtils;


public class MyIkAnalyzer extends Analyzer {
    @Override
    protected TokenStreamComponents createComponents(String arg0) {
        Reader reader = null;
        try {
            reader = new StringReader(arg0);
            MyIKTokenizer it = new MyIKTokenizer(reader);
            return new Analyzer.TokenStreamComponents(it);
        } finally {
            IOUtils.closeWhileHandlingException(reader);
        }
    }
}

其中的createComponents方法是继承Luecene的Analyzer接口的，由于Lucene5.0里把createComponents方法的第二个参数去掉了，所以需要对该方法做如上修改

4.分词测试类

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import net.begincode.lucene.util.MyIkAnalyzer;
/**
 * 
 * @author Stay
 *
 */
public class TestAnalyzer {

	private static void testAnalyzer(Analyzer analyzer,String text) throws Exception{
		System.out.println("当前使用的分词器:"+analyzer.getClass());
		TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));
		CharTermAttribute cta = tokenStream.addAttribute(CharTermAttribute.class);
		tokenStream.reset();  //必须先调用reset方法
		while(tokenStream.incrementToken()){
			System.out.println(cta);
		}
	}
	public static void main(String[] args) throws Exception{
		Analyzer analyzer = new MyIkAnalyzer();
		testAnalyzer(analyzer, "begincode社区,java初学者");
	}
	
}

输出

当前使用的分词器:class net.begincode.lucene.util.MyIkAnalyzer
加载扩展词典：mydict.dic
加载扩展停止词典：surname.dic
begincode
社区
java
初学者
初学
学者

5.总结

好的分词器需要不断的摸索，实践而产生的。不同的领域有不同的分词技术。国内也有一些商业化的分词组件，要真正好用的分词器，还是得花一些钱。

lucene5.4.1所有代码和拓展代码地址:https://github.com/StayY/begincodeLucene

转载于:https://my.oschina.net/u/2551035/blog/818164

chixian3322

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫