Lucene.Net 开发介绍 —— 二、分词（一）

最新推荐文章于 2019-05-05 13:31:21 发布

JIN20468320

最新推荐文章于 2019-05-05 13:31:21 发布

阅读量5.2k

点赞数

分类专栏： luncence.net 文章标签：测试扩展工作

本文链接：https://blog.csdn.net/JIN20468320/article/details/3129431

版权

本文介绍了Lucene.Net中的分词原理，分析了内置的KeywordAnalyzer、SimpleAnalyzer、StandardAnalyzer、StopAnalyzer和WhitespaceAnalyzer的效果，并通过代码示例展示了如何进行测试。其中，KeywordAnalyzer不分词，SimpleAnalyzer对中文分词效果不佳，StandardAnalyzer进行单字拆分，StopAnalyzer与SimpleAnalyzer类似，WhitespaceAnalyzer按空格划分。

摘要由CSDN通过智能技术生成

Lucene.Net中，分词是核心库之一，当然，也可以将它独立出来。目前Lucene.Net的分词库很不完善，实际应用价值不高。唯一能用在实际场合的StandardAnalyzer类，效果也不是很好。内置在Lucene.Net里的分词都被放在项目的Analysis目录下，也就是Lucene.Net.Analysis命名空间下。分词类的命名一般都是以“Analyzer”结束，比如StandardAnalyzer，StopAnalyzer，SimpleAnalyzer等。全部继承自Analyzer类。而它们一般各有一个辅助类，一般以”“Tokenizer”结尾，分词的逻辑大都在辅助类完成。

使用Lucene.Net，要很好地使用Lucene.Net，必须理解分词，甚至能自己扩展分词。如果只使用拉丁语系，那么使用内置的分词可能足够了，但是对于中文肯定是不行的。目前中文方面的分词分为单字分词，二元分词，词库匹配，语义理解这几种。StandardAnalyzer类就是按单字分，二元分就是把两个字作为一组拆分，而词库的话肯定是有一个复杂的对比过程，语义理解的就更加复杂了。这是分词的方式，而匹配的方式也分为正向和逆向两种，一般逆向要优于正向，但是写起来也要复杂一些。

1、内置分词器

本节将详细介绍Lucene.Net内置分词的效果，工作过程，及整体结构。

1.1、分词效果

1.1.1 如果得到分词效果

如果得到分词效果？有效的方式就是进行测试。这里将引入自动测试的方法，这样更加便于测试，将使用NUnit来完成。Nunit的简单实用方法见附录二。

创建一个新的项目，命名为Test。步骤如图 1.1.1.1 - 1.1.1.2

图1.1.1.1

图 1.1.1.2

点确定，就加入了新项目Test，选择类库模板。再引用Nunit.framework类库。如图 1.1.1.3。

图 1.1.1.3

再按第一章节的步骤引入Lucene.Net类库。先来试试SimpleAnalyzer类的效果。在Test项目中添加SimpleAnalyzerTest，代码 1.1.1.1。

代码 1.1.1.1

1using System;
2using System.Collections.Generic;
3using System.Text;
4using NUnit.Framework;
5using Lucene.Net.Analysis;
6using System.IO;
7namespace Test
8{
9    [TestFixture]
10    public class SimpleAnalyzerTest
11    {
12        [Test]
13        public void ReusableTokenStreamTest()
14        {
15            string testwords = "我是中国人，I can speak chinese!";
16
17            SimpleAnalyzer simple =