lucene-亚洲语种和unicode字符分析

1、unicode字符

在lucene内部,所有的字符都是以标准UTF-8编码的,JAVA会在字符串对象内对Unicode编码进行自动处理,从而把我们从这个繁琐的处理任务中解放出来。

2、亚洲语种分析

  汉语、日语及韩语(CJK)等亚洲语种一般使用表意文字,需要使用不同的分析方法来识别和分隔语汇单元。

 Lucene的Sandbox中有两个用于亚洲语言分析的分析器。使用IndexSearcher查询时跟对英文进行查询的代码一样,但是查询代码所在的JAVA源程序代码必须保存为UTF-8格式的文档。如Hitshits=searcher.search(new TermQuery(new Term("contents","道")));

3、一个示例程序ChineseDemo

public class ChineseDemo{

    privatestatic String[] strings=("道德经");

   

    privatestatic Analyzer[] analyzer={

        new SimpleAnalyzer(),

        new StandardAnalyzer(),

        new ChineseAnanlyzer(),//Sandbox的中文分析器

        new CJKAnanlyzer()//sandbox的中文分析器

    };

    publicvoid main(String args[]) throws Exception{

      for (int i=0;i<strings.length;i++){

           String string=strings[i];

           for (int j=0;j<ananlyzer.length;j++){

               Analyzer  analyzer=analyzer[j];

               analyzer(string,analyzer);

            }

      }


    }

    privatestatic void analyze(String string,Ananylzer analyzer) throwsIOException{

       StringBuffer buffer=new StringBuffer();

       Token[]tokens=AnalyzerUtils.tokenSFromAnalysis(analyzer,string);

        for(int i=0;i<tokens.length;i++){

           buffer.append("[");

            buffer.append(tokens[i].termText());

           buffer.append("]");           

       }

       String output=buffer.toString();

       System.out.println(output);

    }

}

结果是:

SimpleAnalyzer输出[道德经]

StandardAnalyzer输出[道][德][经]

ChineseAnalyzer输出[道][德][经]

CJKAnaylyzer输出[道德][德经]

可见CJK将前后相连的字符组合在一起,这样容易产生汉字词组,但同时产生了大量不是词组的词组

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Java Lucene-Core 是 Apache Lucene 项目的核心依赖库。Lucene 是一个开源的全文检索引擎工具包,提供了强大的全文检索功能,可用于构建各种基于文本的应用程序。 在使用 Lucene 时,需要添加 Lucene-Core 依赖到项目中,以便能够使用 Lucene 提供的各种功能。Lucene-Core 是 Lucene 项目最基本的依赖库,包含了一些必备的类和方法,用于索引和搜索文档。 通过 Lucene-Core,可以使用 Lucene 提供的各种 API 来创建索引、搜索和加权查询。Lucene 使用倒排索引的方式来快速定位包含搜索词的文档,而不需要遍历整个文档集合。这种索引结构使得 Lucene 具有出色的搜索效率和性能。 Lucene-Core 还提供了各种分析器(Analyzer)和查询解析器(Query Parser),用于处理文本的分词、词干处理和查询解析等操作。分析器可用于将文本分割成词语,并根据需要进行一些文本处理操作。查询解析器则用于将用户的查询语句解析成 Lucene 可以理解的查询对象。 除了 Lucene-Core,还存在其他的 Lucene 依赖库,如 Lucene-Analyzers、Lucene-Queries 等,它们提供了更高级的功能和扩展,用于处理多语言分词、模糊查询、范围查询等等。 总之,Java Lucene-Core 依赖是使用 Lucene 的必备库,它提供了构建全文检索应用程序所需的基本功能和工具。通过使用 Lucene-Core,开发人员可以更方便地利用 Lucene 的强大功能来实现高效的全文检索。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值