浅析Analyzer

最新推荐文章于 2022-11-04 13:25:54 发布

shanshu12

最新推荐文章于 2022-11-04 13:25:54 发布

阅读量1k

点赞数

分类专栏：信息检索文章标签： lucene token email 2010

信息检索专栏收录该内容

2 篇文章 0 订阅

订阅专栏

浅析Analyzer

2010-06-04 09:43

Analyzer 是 Lucene 中非常重要的一个环节。 Victor 在文章中把它比喻成人体的肠道，负责把食物分解成易于吸收的小块。这个说法非常形象， Analyzer 的作用就是把文本分解为便于 Lucene 处理的 token 。 Lucene 有四个自带的 Analyzer ，分别是 WhitespaceAnalyzer 、 SimpleAnalyzer 、 StopAnalyzer 、 StandardAnalyze 。现在我们以 "The quick brown fox jumped over the lazy dogs"和"XY&Z Corporation - xyz@example.com"两个句子为例就看看这四个Analyzer究竟是怎样分解文本的。（这个例子来自于LIA）

Analyzing "The quick brown fox jumped over the lazy dogs"

WhitespaceAnalyzer:

[The] [quick] [brown] [fox] [jumped] [over] [the] [lazy] [dogs]

SimpleAnalyzer:

[the] [quick] [brown] [fox] [jumped] [over] [the] [lazy] [dogs]

StopAnalyzer:

[quick] [brown] [fox] [jumped] [over] [lazy] [dogs]

StandardAnalyzer:

[quick] [brown] [fox] [jumped] [over] [lazy] [dogs]

Analyzing "XY&Z Corporation - xyz@example.com"

WhitespaceAnalyzer:

[XY&Z] [Corporation] [-] [xyz@example.com]

SimpleAnalyzer:

[xy] [z] [corporation] [xyz] [example] [com]

StopAnalyzer:

[xy] [z] [corporation] [xyz] [example] [com]

StandardAnalyzer:

[xy&z] [corporation] [xyz@example.com]

（产生以上文本的代码见附录）

结合四个Analyzer对两个句子的分析，我们可以看到WhitespaceAnalyzer只对文本进行空格切分；SimpleAnalyzer除了按空格切分之外遇到标点符号也会切分，同时还把所有的字母变成了小写的；StopAnalyzer在SimpleAnalyzer功能的基础上还去掉了”the”, “a”等停用词；而StandardAnalyzer最为强大，表面上看它是按空格切分，然后去掉一些停用词，但实际上它有很强的token识别功能，像”xyz@example.com”这样的字符串它可以识别为email。

shanshu12

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
浅析Analyzer

浅析Analyzer 2010-06-04 09:43Analyzer是Lucene中非常重要的一个环节。Victor在文章中把它比喻成人体的肠道，负责把食物分解成易于吸收的小块。这个说法非常形象，Analyzer的作用就是把文本分解为便于Lucene处理的token。Lucene有四个自带的Analyzer，分别是WhitespaceAnalyzer、SimpleAnalyzer、StopAnalyzer、StandardAnalyze。现在我们以"The quick brown fox jumped o
复制链接

扫一扫