es过滤html标签,Elasticsearch 分词器

最新推荐文章于 2024-10-16 10:01:51 发布

weixin_39793564

最新推荐文章于 2024-10-16 10:01:51 发布

阅读量1.9k

点赞数

文章标签： es过滤html标签

本文详细介绍了Elasticsearch的分析器工作流程，包括字符过滤器、分词器和标记过滤器。重点讨论了如何使用内置分析器如标准分析器、简单分析器和空格分析器，以及如何通过自定义分析器实现HTML标签过滤，以提高全文搜索的准确性。文中提供了使用Kibana调试分析器的示例。

摘要由CSDN通过智能技术生成

在全文搜索(Fulltext Search)中，词(Term)是一个搜索单元，表示文本中的一个词，标记(Token)表示在文本字段中出现的词，由词的文本、在原始文本中的开始和结束偏移量、以及数据类型等组成。ElasticSearch 把文档数据写到倒排索引(Inverted Index)的结构中，倒排索引建立词(Term)和文档之间的映射，索引中的数据是面向词，而不是面向文档的。分析器(Analyzer)的作用就是分析(Analyse)，用于把传入Lucene的文档数据转化为倒排索引，把文本处理成可被搜索的词。

在ElasticSearch引擎中，分析器的任务是分析(Analyze)文本数据，分析是分词，规范化文本的意思，其工作流程是：

1. 首先，字符过滤器对分析(analyzed)文本进行过滤和处理，例如从原始文本中移除HTML标记，根据字符映射替换文本等，

2. 过滤之后的文本被分词器接收，分词器把文本分割成标记流，也就是一个接一个的标记，

3.然后，标记过滤器对标记流进行过滤处理，例如，移除停用词，把词转换成其词干形式，把词转换成其同义词等，

4.最终，过滤之后的标记流被存储在倒排索引中；

5. ElasticSearch引擎在收到用户的查询请求时，会使用分析器对查询条件进行分析，根据分析的结构，重新构造查询，以搜索倒排索引，完成全文搜索请求。

无论是内置的分析器(analyzer)，还是自定义的分析器(analyzer)，都由三种构件块组成的：character filters，tokenizers和 token filters。

character filters

字符过滤器以字符流的形式接收原始文本，并可以通过添加、删除或更改字符来转换该流。

举例来说，一个字符过滤器可以用来把阿拉伯数字(٠‎١٢٣٤٥٦٧٨‎٩)‎转成成Arabic-Latin的等价物(0123456789)。

一个分析器可能有0个或多个字符过滤器，它们按顺序应用。

Tokenizer (分词器)

一个分词器接收一个字符流，并将其拆分成单个token (通常是单个单词)&#x

最低0.47元/天解锁文章

weixin_39793564

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。