Solr：分词 Analysis

用心去追梦

于 2024-04-07 11:25:17 发布

阅读量350

点赞数 4

文章标签： solr lucene

本文链接：https://blog.csdn.net/qq_33240556/article/details/137457600

版权

Apache Solr 中的分词（Tokenization）是文本分析（Analysis）过程中的关键步骤，它将原始文本分解为一系列离散的词汇单元（tokens），这些单元是索引和搜索的基本单位。Solr 提供了多种内置分词器（Tokenizers）以及可配置的分词规则，以适应不同的语言特性和业务需求。以下是对 Solr 分词分析的详细说明：

1. 分词器（Tokenizers）**

Solr 中的分词器负责将输入文本分割成单独的词汇单元。常见的内置分词器包括：

Standard Tokenizer：基于 Unicode 文本分割标准的通用分词器，能处理大多数西方语言。它能识别标点符号、空白字符等作为分隔符，并对字母进行大小写转换。
Whitespace Tokenizer：仅依据空格、制表符、换行符等空白字符进行分词，简单但高效。
Letter Tokenizer：仅保留字母字符，并将其拆分为单独的词汇单元，忽略数字、标点和其他非字母字符。
Keyword Tokenizer：将整个输入文本视为一个单一词汇单元，不分割。常用于索引整数、UUID、MD5哈希等不应被分割的字段。
ICU Tokenizer：基于 International Components for Unicode (ICU) 库，提供对多种语言（包括东亚语言）的复杂分词支持。
Pattern Tokenizer：基于正则表达式进行分词，允许自定义分隔规则。
CJK Tokenizer（Chinese, Japanese, Korean）：专为处理东亚语言（如中文、日文、韩文）设计的分词器，能够识别汉字、假名、谚文等字符，并进行合理的分词。

2. 分词过程**

分词过程通常包括以下步骤：

输入文本：待分词的原始文本。
分词器处理：根据选定的分词器，对输入文本进行分割，产生词汇单元序列。
过滤器链（Token Filters）：分词器产生的词汇单元随后会通过一个可配置的过滤器链，进行进一步处理。过滤器可以执行以下操作：
- 字符过滤：如 LowerCaseFilter（转为小写）、ASCIIFoldingFilter（将非ASCII字符转换为ASCII近似值）等。
- 停用词过滤：如 StopFilter，移除无关紧要的常见词（如英语中的 “the”, “a”, “an” 等）。
- 词形还原/规范化：如 PorterStemFilter（英语词干提取）、SnowballPorterFilter（基于Snowball算法的词干提取）、HunspellStemFilter（使用Hunspell词典进行词形还原）等。
- 同义词扩展：如 SynonymFilter，将同义词或近义词替换为一个标准形式。
- 自定义过滤：通过编写自定义过滤器插件，实现特定的文本处理逻辑。
输出词汇单元：经过过滤器链处理后的词汇单元将被索引，并用于后续的查询匹配。

3. 配置分词器**

在 Solr 的 schema.xml 或 managed-schema 文件中，为每个字段指定合适的分词器。例如，为一个名为 content 的字段配置 Standard Tokenizer 和 LowerCaseFilter：

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
  <analyzer type="index">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
  <analyzer type="query">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
</fieldType>

<field name="content" type="text_general" indexed="true" stored="true" multiValued="true"/>

4. 测试分词效果**

Solr Admin UI 提供了一个直观的 “Analysis” 工具，可以帮助您测试特定字段的分词效果。在 “Schema” 页面，选择一个字段，点击 “Analysis” 链接，输入示例文本，即可看到分词器和过滤器链对该文本的处理结果。

5. 注意事项**

区分索引（index）和查询（query）分析：通常，索引分析和查询分析使用相同的分词器和过滤器，但有时为了优化查询性能或处理查询语法，可能需要为两者配置不同的分析链。
选择合适的分词器：根据字段内容的语言、文本特点和业务需求选择最合适的分词器。对于非英文文本，可能需要使用专门针对该语言设计的分词器。
测试与调整：在实际应用中，应通过 “Analysis” 工具或实际查询结果反复测试和调整分词配置，确保索引质量和查询效果符合预期。

通过合理配置和使用分词器，Solr 能够有效地处理各种文本数据，为用户提供精确、高效的搜索体验。在实际应用中，可能还需要结合其他文本分析技术（如词根提取、同义词管理等）进一步优化索引和搜索质量。

用心去追梦

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Solr：分词 Analysis

Apache Solr 中的分词（Tokenization）是文本分析（Analysis）过程中的关键步骤，它将原始文本分解为一系列离散的词汇单元（tokens），这些单元是索引和搜索的基本单位。Solr 提供了多种内置分词器（Tokenizers）以及可配置的分词规则，以适应不同的语言特性和业务需求。
复制链接

扫一扫