ElasticSearch教程——自定义分词器

最新推荐文章于 2024-08-13 17:43:38 发布

东天里的冬天

最新推荐文章于 2024-08-13 17:43:38 发布

阅读量4.4k

点赞数

分类专栏： ElasticSearch ElasticSearch从入门到精通再到深入剖析文章标签：分词器自定义分词器

本文链接：https://blog.csdn.net/gwd1154978352/article/details/83343933

版权

本文详细介绍了ElasticSearch中的分词器，包括内置的如标准分词器和英文分词器的使用，并提供了修改分词器设置的步骤，如启用english并应用停用词过滤。同时，文章深入探讨了如何自定义分词器，通过内容解析和测试代码展示了自定义分词器的实现与测试结果，最后讨论了在type中的应用。

摘要由CSDN通过智能技术生成

ElasticSearch汇总请查看：ElasticSearch教程——汇总篇

分词器

Elasticsearch中，内置了很多分词器（analyzers），例如standard （标准分词器）、english（英文分词）和chinese （中文分词），默认的是standard，

standard tokenizer：以单词边界进行切分
standard token filter：什么都不做
lowercase token filter：将所有字母转换为小写
stop token filer（默认被禁用）：移除停用词，比如a the it等等

修改分词器设置

启用english，停用词token filter

PUT /my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "es_std": {
          "type": "standard",
          "stopwords": "_english_"
        }
      }
    }
  }
}

标准分词测试代码

GET /

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

东天里的冬天

关注关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Elasticsearch——IK分词器自定义词库

06-08

5724

一、业务场景 Elasticsearch是一个基于Lucene的搜索服务器，其引入IK分词器后，可以对中文进行分词。IK分词器分词的原理是在源文件中收集了很多词汇，仅在其中一个主要词汇文件main.dic文件中就有27W的词汇量。但是有的时候仅用分词器本身提供的通用词汇无法满足自己的项目特定的业务需求，比如说我要以“最长的电影”这一歌名作为搜索条件，所得到的结果如下图所示。 ...

elasticsearch自定义分词插件

09-27

自定义elasticsearch分词插件，在网上找了一个空格分词的实现，主要看思路，方便大家写自己的分词插件

参与评论您还未登录，请先登录后发表或查看评论

Elasticsearch自定义分词器

黑马程序员官方博客

09-08

2439

分词器的基础上的拼音，比如：长隆大马戏可以分词出马戏，那么就应该有对应的拼音， maxi。默认的拼音分词器会将每个汉字单独分为拼音，而我们希望的是每个词条形成一组拼音，需要对拼音分词器做个性化定制，形成自定义分词器。拼音分词器对我们每一个汉字都解析出对应的中文，但是这个并不是我们所需要的结果，我们需要的结果基于ik。声明自定义分词器的语法如下： 自定义分词器是属于某一个索引库的，并不是全局的。要实现拼音分词检索，就必须对文档按照拼音分词。之前对文本进行处理。，然后经过过滤器，过滤器是拼音分词器，

ElasticSearch分词器

最新发布

qq_44027353的博客

08-13

1115

这样当我们去搜索某个关键词时，ES 首先根据它的前缀或者后缀迅速缩小关键词的在 term dictionary 中的范围，大大减少了磁盘IO的次数。为了进一步提高索引效率，ES对trem的前缀或后缀构建了trem index，用于对trem本身的索引，如下图所示。基本处理逻辑为按照预先制定的分词规则，把原始文档分割成若干更小粒度的词项，粒度大小取决于分词器规则。Elasticsearch 的JSON文档中的每个字段，都有自己的倒排索引。记录所有文档的trem，记录trem和倒排列表的关联关系。

ElasticSearch中的自定义分词

qq_40990836的博客

07-15

2985

自定义分词当 ElasticSearch 自带的分词器无法满足时，可以自定义分词器，通过组合不同的组件实现 Character Filter Tokenizer Token Filter Character Filters 在Tokenizer 之前对文本进行处理，例如增加删除以及替换字符，可以配置多个 Character Filters，会影响 Tokenizer的 po...

elasticsearch-7.14.0+分词器+head插件一键下载

09-04

分词器在 Elasticsearch 中扮演着核心角色，因为它们负责将输入的文本分解为可索引的单元——词语。Elasticsearch 内置了多种分词器，如标准分词器（Standard Analyzer）、关键词分词器（Keyword Analyzer）和中文...

Elasticsearch——》ngram分词器

小仙~

05-10

2077

在 Elasticsearch 中，ngram 分词器是一种基于 n-gram 算法的分词器，用于将文本转换为一组 n-gram 词项。与其他一些分词器（如 standard 分词器）不同，ngram 分词器可以生成部分单词，并且不需要完整的词汇表。 ngram 分词器的工作原理是将输入文本切分成一个个较小的子字符串，然后将这些子字符串作为词项添加到索引中。这个过程涉及两个参数：min_gram 和 max_gram，它们控制了生成的词项的长度范围。

Elasticsearch实战(四)——IK分词器与自定义中文词库

qq_43553923的博客

04-01

512

IK分词器与自定义中文词库内置分词器 ES总共提供了五种分词器，分别是：standard，simple，whitespace，stop，keyword。 ES默认使用内置的标准分词器(standard)，该分词器会根据根据单词进行分词，并将分词得到的单词转为小写形式，标准分词器不支持中文分词，会对中文分词以单个汉字为单位进行拆分。简单分词器(simple)，简单分词器也会根据单词进行分词，但是它不会将数字当成一个单词，并且像don't，这种连词，它会简单的将它们分为两个词，即会根据'进行拆分，它也会将分

elasticsearch6.x自定义分词插件

11-20

自定义了es6分词插件，其中分词逻辑已被封装到接口中，接收文本，调用接口，输出分词结果参考文章：https://blog.csdn.net/frankcheng5143/article/details/82870319

自定义分词器：ElasticSearch自定义分词器

程序员光剑

01-21

1098

1.背景介绍 自定义分词器：ElasticSearch自定义分词器 1. 背景介绍 ElasticSearch是一个开源的搜索和分析引擎，它提供了实时的、可扩展的、高性能的搜索功能。ElasticSearch使用Lucene库作为底层搜索引擎，它提供了强大的文本分析和搜索功能。在ElasticSearch中，分词器是将文本拆分为单词的过程，它是搜索和分析的基础。 自定义分词器是Elasti...

Elasticsearch分词及其自定义

batman

05-15

1977

业务需求是这样的：有一个作者字段，比如Li，LeiLei；Han，MeiMei以及LeiLei Li……现在要对其进行精确匹配。对此，你有什么想法？你可能会考虑用自定义分词的方式，通过分号分词。但是这样的话，如果检索Li，LeiLei，那么LeiLei Li就不能被搜索到，而我们希望LeiLei Li也被搜索到。并且对于这种分词，Li，LeiLei中间不加逗号也不能匹配到。但是为什么在映射里面添加停用词也是无效的呢？

ES 09 - Elasticsearch如何定制分词器 (自定义分词策略)

weixin_30355437的博客

11-23

764

目录 1 索引的分析 1.1 分析器的组成 1.2 倒排索引的核心原理-normalization 2 ES的默认分词器 3 修改分词器 4 定制分词器 4.1 向索引中添加自定义的分词器 4.2 测试自定义分析器 ...

2.3 ElasticSearch分词之自定义分词

Steven的博客

09-03

403

1.简介当自带的分词器无法满足需求时，就可以通过自定义分词来解决，自定义分词器的组成包括character filters、tokenizer和token filters三个部分。 2.Character Filters (1).简介在tokenizer之前对原始文本进行处理，比如增加、删除或者替换字符等，其会影响后续tokenizer解析的位置和偏移量，自带的三个功能为去除html标签和实体的html_strip、进行字符串替换操作的my_mapping(自定义)以及进行正则匹配替换的my_patte

ElasticSearch | 内置分词器 | 自定义分词器

乌鲁木齐001号程序员

05-20

280

自定义分词器 当 ElasticSearch 自带的分词器无法满足需要时，可以自定义分词器，通过组合不同的组件实现； 分词器的三个组件： Character Filters：针对原始文本处理，例如去除 html 标签； Tokenizer：按照规则分为单词； Token Filters：将切分的单词进行加工，小写，删除 stopwords，增加同义词； Character Filt...

Elasticsearch怎样实现自定义分词

A798194701的博客

03-29

6149

🔊此次采用在Docker下演示ik分词器和Nginx结合使用实现分词效果首先，如果没有下Docker，可点击此处根据步骤下载Docker 下载完成后，我们要使用docker命令下载Elasticsearch mkdir -p /mydata/elasticsearch/config # 用来存放配置文件 mkdir -p /mydata/elasticsearch/data # 数据 echo "http.host: 0.0.0.0" >/mydata/elasticsearch/conf

自定义分词器

男儿当自强

11-03

694

在Es中，一个字段可以定义多个字段类型，并设置分词器。 Es分词器由三部分组成：character filter:分词前过滤；tokenizer:按照一定逻辑规则分词；token filter:对分词结果处理。 1 用keyword分词（输入即输出），并在分词前过滤掉html post _analyze { "tokenizer":"keyword", "char_filter":["html_strip"], "text":"<b>hello word</b&gt...

Elasticsearch 自定义分词器怎么配置

04-28

Elasticsearch 自定义分词器的配置可以通过以下步骤完成： 1. 创建一个新的分词器插件，可以使用 Maven 或 Gradle 进行构建。 2. 实现自定义分词器类，继承 `org.elasticsearch.index.analysis....