Lucene代码分析2

最新推荐文章于 2024-08-14 14:57:41 发布

qq_45878116

最新推荐文章于 2024-08-14 14:57:41 发布

阅读量87

点赞数

文章标签： lucene r语言算法

本文链接：https://blog.csdn.net/qq_45878116/article/details/120607799

版权

2021SC@SDUSC

我在小组中分配的任务为对Lucene中的Analysis和codecs进行分析

我阅读的DotLucene版本是1.9.RC1

该文章主要对Analysis进行初步分析

Analysis包的主要功能为：语言分析器，主要用于切词，支持中文主要是扩展此类

1), Lucene.Net.Analysis命名空间分析。

在Lucene.Net.Analysis下，类的关系，可以看成有三个继承体系:

词法分析器(Analyzer) ：词法过滤和分析的类，实际上是对分词器, 过滤器的综合包装类。

分词器(Tokenizer)：对文本进行分词，可能是单字，词，二元切分等等。

过滤器(TokenFilter)：对由分词器分词后的Token进行过滤，比如无意词(a ,是，的等等)或者其他的指定的需要过滤的词

下面看看每一个继承体系都有那些相关类：

分词器(Tokenizer) 的相关类类关系图：

过滤器(TokenFilter) 的相关类类关系图：

上面的三个类关系体系里涉及到的主要类(概念)的简单说明：

在所有上面这个类之中，我们经常用的也是所有Analyzer中最复杂的就是StandardAnalyzer(本身不复杂，其调用的分词器复杂)，下面对这个类做一个简单的分析:
StandardAnalyzer最核心，最主要的方法：

public override TokenStream TokenStream(System.String fieldName, System.IO.TextReader reader)

         {

              TokenStream result = new StandardTokenizer(reader);

              result = new StandardFilter(result);

              result = new LowerCaseFilter(result);

              result = new StopFilter(result, stopSet);

              return result;

         }

就是调用StandardTokenizer分词器对文本分词。然后调用三个过滤器(作用表格有写)，其中的StandardTokenizer类及相关的类比较复杂，目前还没有完全理解。所以下面的文字是需要用批判眼光来阅读的。说白了，我是一边猜，一边看源码。以求的最准确的理解。

先做个简单的测试，通过结果来分析：

string sTemp = "我们是中国人,We are chinese";

            Analyzer analyzer = new StandardAnalyzer() ;

            StringReader sr = new StringReader(sTemp);

            TokenStream ts = analyzer.TokenStream(sr);

            Lucene.Net.Analysis.Token token = null;

            while ((token = ts.Next()) != null)

            {

                this.txtResult.Text += token.ToString();

            }

txtResult是Winform的TextBox，输出结果如下：

(我,0,1,type=<CJ>)(们,1,2,type=<CJ>)(是,2,3,type=<CJ>)(中,3,4,type=<CJ>)(国,4,5,type=<CJ>)(人,5,6,type=<CJ>)(we,7,9,type=<ALPHANUM>)(chinese,14,21,type=<ALPHANUM>)

拿(我,0,1,type=<CJ>)来分析，因为是单字切分，所以分解成了一个一个的字。其中0,1表示”我”这个字在文本中StartOffset，EndOffset，最后的type表示文字的类型是英文,数字,还是是中文等等。在rc1.9中支持的type可以在Lucene.Net.Analysis.Standard下的StandardTokenizerConstants类看到。而CJ代表的是中文和日文的集合。不仅仅代表中文哦。

分析到这里，我有一个疑问。DotLucene是怎么区别不同的文字的呢？那就是根据unicode编码的范围区别不同的文字。不过这句话，是我猜出来，但我始终没能在DotLucene源码中找到能支持我这句话的原代码。所以猜测始终还是猜测。鉴于本次阅读DotLucene的目的是为了更好的使用，而非研究，所以对Lucene.Net.Analysis命名空间的分析只能就此打住。

qq_45878116

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene代码分析2

2021SC@SDUSC我在小组中分配的任务为对Lucene中的Analysis和codecs进行分析我阅读的DotLucene版本是1.9.RC1该文章主要对Analysis进行初步分析Analysis包的主要功能为：语言分析器，主要用于切词，支持中文主要是扩展此类1),Lucene.Net.Analysis命名空间分析。在Lucene.Net.Analysis下，类的关系，可以看成有三个继承体系:词法分析器(Analyzer) ：词法过滤和分析的类，实际上是对分词器, 过滤.
复制链接

扫一扫