Lucene代码分析4

该文章继续对Analysis进行分析

算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCLAS接口的话)

数据结构:部分源码用到了Set ,HashTable,HashMap

认真理解Token

Lucene中的Analysis包专门用于完成对于索引文件的分词.Lucene中的Token是一个非常重要的概念.

看一下其源码实现:


public final class Token {
 
  String termText;                        // the text of the term
 
  int startOffset;                           // start in source text
 
  int endOffset;                            // end in source text
 
  String type = "word";                        // lexical type
 
  private int positionIncrement = 1;
 
  public Token(String text, int start, int end)
 
  public Token(String text, int start, int end, String typ)
 
  public void setPositionIncrement(int positionIncrement)
 
  public int getPositionIncrement() { return positionIncrement; }
 
  public final String termText() { return termText; }
 
  public final int startOffset() { return startOffset; }
 
public void setStartOffset(int givenStartOffset)
 
  public final int endOffset() { return endOffset; }
 
public void setEndOffset(int givenEndOffset)
 
  public final String type() { return type; }
 
  public String toString()
 
 }

下面编一段代码来看一下

TestToken.java
 


package org.apache.lucene.analysis.test;
 
import org.apache.lucene.analysis.*;
 
import org.apache.lucene.analysis.standard.StandardAnalyzer;
 
import java.io.*;
 
public class TestToken
 
{
 
  public static void main(String[] args)
 
  {
 
    String string = new String("我爱天大,但我更爱中国");
 
//Analyzer analyzer = new StandardAnalyzer();
 
Analyzer analyzer = new TjuChineseAnalyzer();
 
//Analyzer analyzer= new StopAnalyzer();
 
    TokenStream ts = analyzer.tokenStream("dummy",new StringReader(string));
 
    Token token;
 
    try
 
    {
 
      int n=0;
 
      while ( (token = ts.next()) != null)
 
      {
 
        System.out.println((n++)+"->"+token.toString());
 
      }
 
    }
 
    catch(IOException ioe)
 
    {
 
      ioe.printStackTrace();
 
    }
 
 
 
  }
 
}

注意看其结果如下所示

0->Token's (termText,startOffset,endOffset,type,positionIncrement) is:(我,0,1,<CJK>,1)

1->Token's (termText,startOffset,endOffset,type,positionIncrement) is:(爱,1,2,<CJK>,1)

2->Token's (termText,startOffset,endOffset,type,positionIncrement) is:(天,2,3,<CJK>,1)

3->Token's (termText,startOffset,endOffset,type,positionIncrement) is:(大,3,4,<CJK>,1)

4->Token's (termText,startOffset,endOffset,type,positionIncrement) is:(但,5,6,<CJK>,1)

5->Token's (termText,startOffset,endOffset,type,positionIncrement) is:(我,6,7,<CJK>,1)

6->Token's (termText,startOffset,endOffset,type,positionIncrement) is:(更,7,8,<CJK>,1)

7->Token's (termText,startOffset,endOffset,type,positionIncrement) is:(爱,8,9,<CJK>,1)

8->Token's (termText,startOffset,endOffset,type,positionIncrement) is:(中,9,10,<CJK>,1)

9->Token's (termText,startOffset,endOffset,type,positionIncrement) is:(国,10,11,<CJK>,1)

注意:其中”,”被StandardAnalyzer给过滤掉了,所以大家注意第4个Token直接startOffset从5开始.

如果改用StopAnalyzer()

0->Token's (termText,startOffset,endOffset,type,positionIncrement) is:(我爱天大,0,4,word,1)

1->Token's (termText,startOffset,endOffset,type,positionIncrement) is:(但我更爱中国,5,11,word,1)

改用TjuChineseAnalyzer(我写的,下文会讲到如何去写)

0->Token's (termText,startOffset,endOffset,type,positionIncrement) is:(爱,3,4,word,1)

1->Token's (termText,startOffset,endOffset,type,positionIncrement) is:(天大,6,8,word,1)

2->Token's (termText,startOffset,endOffset,type,positionIncrement) is:(更,19,20,word,1)

3->Token's (termText,startOffset,endOffset,type,positionIncrement) is:(爱,22,23,word,1)

4->Token's (termText,startOffset,endOffset,type,positionIncrement) is:(中国,25,27,word,14

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值