十一、分词器的核心类

最新推荐文章于 2024-07-06 11:24:09 发布

chongqingnantian

最新推荐文章于 2024-07-06 11:24:09 发布

阅读量80

点赞数

分类专栏： lucene3.5

本文链接：https://blog.csdn.net/chongqingnantian/article/details/84361788

版权

lucene3.5 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

Analyzer ：

SimpleAnalyzer、StopAnalyzer、WhitespaceAnalyzer、StandardAnalyzer

public static void displayToken(String str,Analyzer a) {
        try {
            TokenStream stream = a.tokenStream ("content",new StringReader (str));
            //创建一个属性，这个属性会添加流中，随着这个TokenStream增加
            CharTermAttribute cta = stream.addAttribute(CharTermAttribute.class);
            while(stream.incrementToken()) {
                System.out.print("["+cta+"]");
            }
            System.out.println();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

@Test
    public void test01() {
        Analyzer a1 = new StandardAnalyzer(Version.LUCENE_35);
        Analyzer a2 = new StopAnalyzer(Version.LUCENE_35);
        Analyzer a3 = new SimpleAnalyzer(Version.LUCENE_35);
        Analyzer a4 = new WhitespaceAnalyzer(Version.LUCENE_35);
        String txt = "this is my house,I am come from yunnang zhaotong,"
                        + "My email is ynkonghao@gmail.com,My QQ is 64831031";

        AnalyzerUtils.displayToken(txt, a1);
        AnalyzerUtils.displayToken(txt, a2);
        AnalyzerUtils.displayToken(txt, a3);
        AnalyzerUtils.displayToken(txt, a4);
    }

输出结果如下：

[my][house][i][am][come][from][yunnang][zhaotong][my][email][ynkonghao][gmail.com][my][qq][64831031]
[my][house][i][am][come][from][yunnang][zhaotong][my][email][ynkonghao][gmail][com][my][qq]
[this][is][my][house][i][am][come][from][yunnang][zhaotong][my][email][is][ynkonghao][gmail][com][my][qq][is]
[this][is][my][house,I][am][come][from][yunnang][zhaotong,My][email][is][ynkonghao@gmail.com,My][QQ][is][64831031]

TokenStream ：

分词器做好处理之后得到的一个流，这个流中存储了分词的各种信息，可以通过TokenStream有效的获取到分词单元信息
TokenStream生成的流程

在这个流中所需要存储的数据

Tokenizer ：

主要负责接收字符流Reader,将Reader进行分词操作。有如下一些实现类

TokenFilter :

将分词的语汇单元，进行各种各样过滤

chongqingnantian

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
十一、分词器的核心类

Analyzer：SimpleAnalyzer、StopAnalyzer、WhitespaceAnalyzer、StandardAnalyzerpublic static void displayToken(String str,Analyzer a) { try { TokenStream strea...
复制链接

扫一扫

专栏目录