lucene-亚洲语种和unicode字符分析

最新推荐文章于 2019-07-24 11:33:54 发布

deepfuture

最新推荐文章于 2019-07-24 11:33:54 发布

阅读量682

点赞数

分类专栏：搜索引擎与人工智能文章标签： string lucene exception output sandbox java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/deepfuture/article/details/5071356

版权

搜索引擎与人工智能专栏收录该内容

217 篇文章 1 订阅

订阅专栏

1、unicode字符

在lucene内部，所有的字符都是以标准UTF-8编码的，JAVA会在字符串对象内对Unicode编码进行自动处理，从而把我们从这个繁琐的处理任务中解放出来。

2、亚洲语种分析

汉语、日语及韩语（CJK）等亚洲语种一般使用表意文字，需要使用不同的分析方法来识别和分隔语汇单元。

Lucene的Sandbox中有两个用于亚洲语言分析的分析器。使用IndexSearcher查询时跟对英文进行查询的代码一样，但是查询代码所在的JAVA源程序代码必须保存为UTF-8格式的文档。如Hitshits=searcher.search(new TermQuery(new Term("contents","道")));

3、一个示例程序ChineseDemo

public class ChineseDemo{

privatestatic String[] strings=("道德经");

privatestatic Analyzer[] analyzer={

new SimpleAnalyzer(),

new StandardAnalyzer(),

new ChineseAnanlyzer(),//Sandbox的中文分析器

new CJKAnanlyzer()//sandbox的中文分析器

};

publicvoid main(String args[]) throws Exception{

for (int i=0;i<strings.length;i++){

String string=strings[i];

for (int j=0;j<ananlyzer.length;j++){

Analyzer analyzer=analyzer[j];

analyzer(string,analyzer);

}

}

}

privatestatic void analyze(String string,Ananylzer analyzer) throwsIOException{

StringBuffer buffer=new StringBuffer();

Token[]tokens=AnalyzerUtils.tokenSFromAnalysis(analyzer,string);

for(int i=0;i<tokens.length;i++){

buffer.append("[");

buffer.append(tokens[i].termText());

buffer.append("]");

}

String output=buffer.toString();

System.out.println(output);

}

}

结果是：

SimpleAnalyzer输出[道德经]

StandardAnalyzer输出[道][德][经]

ChineseAnalyzer输出[道][德][经]

CJKAnaylyzer输出[道德][德经]

可见CJK将前后相连的字符组合在一起，这样容易产生汉字词组，但同时产生了大量不是词组的词组

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
lucene-亚洲语种和unicode字符分析

1、unicode字符在lucene内部，所有的字符都是以标准UTF-8编码的，JAVA会在字符串对象内对Unicode编码进行自动处理，从而把我们从这个繁琐的处理任务中解放出来。2、亚洲语种分析汉语、日语及韩语（CJK）等亚洲语种一般使用表意文字，需要使用不同的分析方法来识别和分隔语汇单元。 Lucene的Sandbox中有两个用于亚洲语言分析的分析器。使用IndexSe
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。