（四）Solr的检索运算符、TokenizerFactory（分词器）、TokenFilterFactory（分词过滤器）详解

最新推荐文章于 2024-02-05 00:21:26 发布

_Ricky_

最新推荐文章于 2024-02-05 00:21:26 发布

阅读量2k

点赞数

分类专栏： Solr 文章标签： JAVA solr

Solr 专栏收录该内容

6 篇文章

订阅专栏

Solr有哪些检索运算符？

1. “:” 指定字段查指定值，如返回所有值*:*
2. “?” 表示单个任意字符的通配
3. “*” 表示多个任意字符的通配（不能在检索的项开始使用*或者?符号）
4. “~” 表示模糊检索，如检索拼写类似于”roam”的项这样写：roam~将找到形如foam和roams的单词；roam~0.8，检索返回相似度在0.8以上的记录。
5. 邻近检索，如检索相隔10个单词的”apache”和”jakarta”，”jakarta apache”~10
6. “^” 控制相关度检索，如检索jakarta apache，同时希望去让”jakarta”的相关度更加好，那么在其后加上”^”符号和增量值，即jakarta^4 apache
7. 布尔操作符AND、||
8. 布尔操作符OR、&&

9. 布尔操作符NOT、!、- （排除操作符不能单独与项使用构成查询）
10. “+” 存在操作符，要求符号”+”后的项必须在文档相应的域中存在
11. ( ) 用于构成子查询
12. [] 包含范围检索，如检索某时间段记录，包含头尾，date:[200707 TO 200710]
13. {} 不包含范围检索，如检索某时间段记录，不包含头尾
date:{200707 TO 200710},注意4.0以上版本可以设置半开闭区间
14. / 转义操作符，特殊字符包括+ - && || ! ( ) { } [ ] ^ ” ~ * ? : /

Solr有哪些TokenizerFactory？

1. solr.LetterTokenizerFactory

创建org.apache.lucene.analysis.LetterTokenizer.

分词举例：

"I can't" ==> "I", "can", "t"

2. solr.WhitespaceTokenizerFactory

创建org.apache.lucene.analysis.WhitespaceTokenizer

3. solr.LowerCaseTokenizerFactory

创建org.apache.lucene.analysis.LowerCaseTokenizer

分词举例：

"I can't" ==> "i", "can", "t"

4. solr.StandardTokenizerFactory

创建org.apache.lucene.analysis.standard.StandardTokenizer

分词举例： "I.B.M. cat's can't" ==>

ACRONYM: "I.B.M.", APOSTROPHE:"cat's", APOSTROPHE:"can't"

说明：该分词器，会自动地给每个分词添加type，以便接下来的对type敏感

5. solr.HTMLStripWhitespaceTokenizerFactory

从结果中出去HTML标签，将结果交给WhitespaceTokenizer处理。

例子：

my <a href="www.foo.bar">link</a>	my link
<?xml?><br>hello<!--comment-->	hello
hello<script><-- f('<--internal--></script>'); --></script>	hello
if a<b then print a;	if a<b then print a;
hello <td height=22 nowrap align="left">	hello
a<b &#65 Alpha&Omega Ω	a<b A Alpha&Omega Ω

6. solr.HTMLStripStandardTokenizerFactory

从结果中出去HTML标签，将结果交给StandardTokenizer处理。

7. solr.PatternTokenizerFactory

说明：按照规则表达式样式对分本进行分词。

例子：处理对象为，mice; kittens; dogs，他们由分号加上一个或多个的空格分隔。

<fieldType name="semicolonDelimited" class="solr.TextField">

<analyzer>

<tokenizer class="solr.PatternTokenizerFactory" pattern="; *" />

</analyzer>

</fieldType>

Solr有哪些TokenFilterFactory？

1. solr.StandardFilterFactory

创建：org.apache.lucene.analysis.standard.StandardFilter.

说明：移除首字母简写中的点和Token后面的’s。仅仅作用于有类的Token，他们是由StandardTokenizer产生的。

例子：StandardTokenizer+ StandardFilter

"I.B.M. cat's can't" ==> "IBM", "cat", "can't"

2. solr.LowerCaseFilterFactory

创建：org.apache.lucene.analysis.LowerCaseFilter.

3. solr.TrimFilterFactory【solr1.2】

创建：org.apache.solr.analysis.TrimFilter

说明：去掉Token两端的空白符

例子：

" Kittens! ", "Duck" ==> "Kittens!", "Duck".

4. solr.StopFilterFactory

创建：org.apache.lucene.analysis.StopFilter

说明：去掉如下的通用词，多为虚词。

"a", "an", "and", "are", "as", "at", "be", "but", "by",

"for", "if", "in", "into", "is", "it",

"no", "not", "of", "on", "or", "s", "such",

"t", "that", "the", "their", "then", "there", "these",

"they", "this", "to", "was", "will", "with"

自定义的通用词表的使用可以通过schema.xml文件中的"words"属性来指定，如下。

<fieldtype name="teststop" class="solr.TextField">

<analyzer>

<tokenizer class="solr.LowerCaseTokenizerFactory"/>

<filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>

</analyzer>

</fieldtype>

5. solr.KeepWordFilterFactory【solr1.3】

创建：org.apache.solr.analysis.KeepWordFilter

说明：作用与solr.StopFilterFactory相反，保留词的列表也可以通过”word”属性进行指定。

<fieldtype name="testkeep" class="solr.TextField">

<analyzer>

<filter class="solr.KeepWordFilterFactory" words="keepwords.txt" ignoreCase="true"/>

</analyzer>

</fieldtype>

6. solr.LengthFilterFactory

创建：solr.LengthFilter

说明：过滤掉长度在某个范围之外的词。范围设定方式见下面。

<fieldtype name="lengthfilt" class="solr.TextField">

<analyzer>

<tokenizer class="solr.WhitespaceTokenizerFactory"/>

<filter class="solr.LengthFilterFactory" min="2" max="5" />

</analyzer>

</fieldtype>

7. solr.PorterStemFilterFactory

创建：org.apache.lucene.analysis.PorterStemFilter

说明：采用Porter Stemming Algorithm算法去掉单词的后缀，例如将复数形式变成单数形式，第三人称动词变成第一人称，现在分词变成一般现在时的动词。

8. solr.EnglishPorterFilterFactory

创建：solr.EnglishPorterFilter

说明：关于句子主干的处理，其中的"protected"指定不允许修改的词的文件。

9. solr.SnowballPorterFilterFactory

说明：关于不同语言的词干处理

10.solr.WordDelimiterFilterFactory

说明：关于分隔符的处理。

11.solr.SynonymFilterFactory

说明：关于同义词的处理。

12.solr.RemoveDuplicatesTokenFilterFactory

说明：避免重复处理。

13. solr.EnglishMinimalStemFilterFactory

说明：它是一个简单的词干器，只处理典型的复数形式。不同于多数的词干器，它词干化的词元是拼写合法的单词，它们是单数形式的。它的好处是使用这个词干器的域可以进行普通的搜索，还可以进行搜索提示。

参考地址：http://www.docin.com/p-283347362.html

原文：https://damoqingquan.iteye.com/blog/231293

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。