先记一下LUCENE几行代码

最新推荐文章于 2024-10-24 19:56:35 发布

iteye_16125

最新推荐文章于 2024-10-24 19:56:35 发布

阅读量87

点赞数

分类专栏：一些测试代码文章标签： lucene F#

本文链接：https://blog.csdn.net/iteye_16125/article/details/81864650

版权

一些测试代码专栏收录该内容

27 篇文章 0 订阅

订阅专栏

by Alex

--------
前几天写了个文本自动分类的小程序，用到了Lucene，用向量空间夹角的方式经过对大量英文文本测试能达到70%左右的识别率。因为对Lucene不太熟悉，不过程序本身有进一步的优化空间，正在尝试优化，另一方面用神经网络来再做一个分类器，做完之后再贴测试结果的比照吧。

网上搜到的似乎都是早点版本的Lucene文章，先记一下3.x后的Lucene用到的一些API
1，建立index


Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);
......
doc.add(new Field("content", new FileReader(f), Field.TermVector.WITH_POSITIONS_OFFSETS));
		doc.add(new Field("category", getClass(f), Field.Store.YES, Field.Index.NOT_ANALYZED));
		doc.add(new Field("filename", f.getName(), Field.Store.YES, Field.Index.NOT_ANALYZED));

2，获取TermFreqVector（i为doc的idx）


TermFreqVector termFreqVector = reader.getTermFreqVector(i, "content");

3，分析器获取分词


Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);
TokenStream stream = analyzer.tokenStream("content", new StringReader(content));
stream.addAttribute(TermAttribute.class);
while(stream.incrementToken()) {
    TermAttribute a = stream.getAttribute(TermAttribute.class);
}

4，补充个计算TFIDF的


Directory dir = new SimpleFSDirectory(new File(LuceneUtils.INDEX_BASE));
		IndexReader reader = IndexReader.open(dir);
		TermEnum enums = reader.terms();
		Similarity similarity = new DefaultSimilarity();
		int docs = reader.maxDoc();
		while(enums.next()){
			Term term = enums.term();
			if (term.field().equals("content")) {
				int freq = enums.docFreq();
				double tfidf = similarity.idf(freq,docs) * similarity.tf(freq);
			}
		}