一、关于
- 1、概念相关
文本分析是将非结构化文本转换为结构化格式,以便于搜索的过程
文本分析器使 ElasticSearch 能够执行全文检索,返回所有相关的结果,而不仅仅是精确的匹配
- 2、组成部分
文本分析器由 字符过滤器、分词器、词项过滤器 三个构建块组成
字符过滤器(character filters)
接收原始文本,并对文本进行过滤处理,如处理文本中的html标签字符或将罗马数字转换成阿拉伯数字等,处理完后再交给分词器进行分词。一个文本分析器中可包含0个或多个字符过滤器,将按配置顺序依次进行处理
分词器(tokenizer)
接收一个字符流,并将文本分解成词项,然后输出一个词项流。一个文本分析器必需且只能包含一个分词器
词项过滤器(token filters)
接收词项流,并对词项流进行过滤处理,如转小写、停用词处理、同义词处理等。一个文本分析器中可包含0个或多个字符过滤器,将按配置顺序依次进行处理
- 3、作用时间
文本分析器会作用在 建立索引 和 全文检索 两个地方
建立索引时
<