2024年最全使用es必须要知道的一些知识点:索引篇_es创建索引(1),大数据开发开发基础入门

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

在Elasticsearch(ES)中,index操作和create操作是用于创建新文档的两种不同方式。下面是它们的区别:

  1. Index操作:

    • Index操作用于在指定的索引中创建新的文档。如果指定的索引不存在,Elasticsearch将自动创建该索引。
    • 如果执行index操作时指定的文档ID已经存在,则会更新该文档。
    • 如果没有指定文档ID,Elasticsearch会自动生成一个唯一的ID,并将其分配给新创建的文档。
    • Index操作是幂等的,即多次执行相同的index操作不会创建重复的文档,而是更新现有的文档。
  2. Create操作:

    • Create操作也用于在指定的索引中创建新的文档。但是,与index操作不同,如果指定的文档ID已经存在,则会引发一个错误。
    • 如果没有指定文档ID,Elasticsearch会自动生成一个唯一的ID,并将其分配给新创建的文档。
    • Create操作是非幂等的,即多次执行相同的create操作会导致错误。

总结:
Index操作用于创建或更新文档,如果文档ID已存在,则更新该文档;而Create操作只能用于创建新文档,如果文档ID已存在,则会引发错误。

二、经验篇

使用动态模板(Dynamic Template)优化索引

在业务系统中,字符串类型的数据,一般被用作精确查询模糊查询

当Elasticsearch被用作大数据量存储中心时,尤其是从Mysql迁移数据进来的情况下,我们很多场景下其实无需对字符串分词,也就是说字符串存储不使用es中的text,我们可以设置属性的类型为keyword

但是,如果数据结构中的字符串非常多,有没有一种方式,可以使字符串属性自动用keyword方式存储呢?这时候我们可以使用索引动态模板(Dynamic Template)来实现。

动态模板(Dynamic Template)

无需分词的情况下,可以在Elasticsearch动态模板中,设置所有字符串数据都用"type": "keyword"来存储。举个例子,我们可以创建一个适当的动态模板规则。

以下是一个示例:

{
  "mappings": {
    "dynamic\_templates": [
      {
        "strings\_as\_keyword": {
          "match\_mapping\_type": "string",
          "mapping": {
            "type": "keyword"
          }
        }
      }
    ]
  }
}

这个动态模板规则将会把所有字符串字段映射为keyword类型。

动态模板常见设置:https://blog.csdn.net/liuwenqiang1314/article/details/125861920

使用动态模板时,如何防止子属性溢出

使用动态模板时,class属性要i禁用Map结构。原因:es索引key数量默认不能超过1000。
es数据底层存储的时候是按照json结构的,Map结构的数据存储到es,key是不固定的,随着数据量的扩张,key的数量可能超过1000,此时es会抛出异常。

illegal_argument_exception, reason=Limit of total fields [1000] in index [fcs_biz_bill_body_dev] has been exceeded

这个错误是由于Elasticsearch索引中的字段数超过了默认限制(1000个字段)所导致的。当我们尝试在一个索引中创建太多字段时,Elasticsearch会抛出这个异常。
解决此问题有两种方法:

  1. 增加索引的index.mapping.total_fields.limit设置值。我们可以通过更新索引设置来增加允许的最大字段数。例如,将其更改为2000:
PUT /fcs_biz_bill_body_dev/_settings
{
  "index": {
    "mapping": {
      "total\_fields": {
        "limit": 2000
      }
    }
  }
}

请注意,在生产环境中谨慎使用这种方法,因为大量字段可能会影响性能和资源利用率。

检查并优化数据模型:如果不需要那么多字段,请考虑重新设计或优化数据模型以减少不必要的字段。这可能包括删除未使用或重复的属性、合并相关属性等。
2. 对不需要索引的object属性禁用动态模板
在Elasticsearch中,动态模板可以用来控制新字段的映射。要实现遇到Map结构时不创建属性,你可以使用以下设置:

  • 通过正则匹配相应的属性
  • 设置mapping.enabled: false

这是一个示例配置:

{
  "mappings": {
    "\_doc": {
      "dynamic\_templates": [
        {
          "not\_analyzed\_map": {
            "match\_pattern": "regex",
            "path\_match": "^map\_.\*$",
            "mapping": {
              "enabled": false
            }
          }
        }
      ]
    }
  }
}

批量处理器(Bulk Processor)不建议处理多个索引模板的请求

一个批量处理器(Bulk Processor)不建议处理多个索引模板的请求,尤其是当这些索引模板的分区规则不一致时,主要是因为以下原因:

  1. 分区规则不一致:不同的索引模板可能具有不同的分区规则,例如按时间分区、按地理位置分区等。当批量处理器处理多个索引模板的请求时,如果分区规则不一致,会导致数据在不同的分区之间不均匀分布,影响查询性能和数据的存储效率。
  2. 索引设置不同:每个索引模板可能具有不同的索引设置,如副本数量、刷新间隔、分片数量等。当批量处理器处理多个索引模板时,这些不同的设置可能会导致性能差异或资源的不均衡分配。
  3. 管理复杂性:处理多个索引模板的请求会增加管理的复杂性,包括索引模板的创建、更新和删除等操作。同时维护多个不同设置和规则的索引模板也会增加配置和维护的工作量。

为了确保良好的性能和简化管理,建议将具有相同分区规则和设置的索引请求分组处理。这样可以确保数据在相同的分区规则下均匀分布,并且能够更有效地管理索引的创建、更新和删除等操作。

三、性能调优

涉及性能的时候,批量的大小很关键。如果你的批量太大,它们会占用过多的内存。如果它们太小,网络开销又会很大。最佳的平衡点,取决于文档的大小——如果文档很大,每个批量中就少放几篇;如果文档很小,就多放几篇——以及集群的能力。

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!**

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

  • 30
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
近200节课,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 课程内容介绍 (1)核心知识 课程特点 (1)使用最新Elasticsearch 5.2版本讲解,市面上的书籍和视频几乎都停留在2.x版本 (2)深入浅出ES核心工作原理,全部手工画图讲解,完全不同于市面上已有视频的PPT讲解 (3)涵盖Elasticsearch所有核心知识点,系统化,体系完整详细,有一定深度,包括完整Java开发示范 (3-1)全面的知识体系,包括了工作原理,文档管理,索引管理,搜索,聚合分析,分词,数据建模,Java API等知识 (3-2)知识足够深入和细节,完全秒杀市面上已有的书籍和视频,比如index segment merge原理,乐观锁并发控制,索引别名与零停机,相关度评分算法与定制,近似聚合算法,doc values与fielddata机制原理,父子关系数据建模,Java API执行scroll search等各种复杂操作,等等 (4)全程每讲必练,大量的案例实战和上机实验,实战出真知,实战中学知识,没有任何一讲是干讲ppt的 (5)包含一个实战项目,运用学到的知识,开发一个小型门户网站的搜索引擎和数据分析系统,运用ES几乎所有的核心知识,不像市面上的demo项目 (6)课程学完之后,学员可以掌握es所有核心知识点,理解es核心原理,而且能够熟练动手操作所有学到的知识和功能,并且能够掌握ES集群的基本部署,并且基于Java开发一个适用于中小型企业的搜索引擎以及数据分析系统,达到学完即可上手到中小型项目中使用的程度 (2)高手进阶 课程特点 (1)使用最新Elasticsearch 5.2版本讲解 (2)包含市面上几乎没有的所有Elasticsearch高级知识点:包含地理位置搜索与聚合分析,term vector,suggester search,搜索模板定制,query执行剖析,数十种最全面的聚合分析,span query,shard分配定制,es插件开发,等等,高级的知识点,这些知识点,市面上已有的书籍或视频几乎都没有 (3)全程每讲必练,大量的案例实战和上机实验 (4)包含一个复杂实战项目,运用学到的知识,开发一个复杂的基于地理位置的智能餐厅app的搜索引擎和数据分析系统,运用ES从核心到高级的所有高阶知识点 (5)课程学完之后,学员可以掌握es从核心到高阶的所有知识点,掌握完整的有深度的es知识体系,同时能够动手操作所有的知识点和功能,最后通过项目实战,能够在中小型公司中,基于Java开发一个可以基于地理位置进行搜索的高级搜索引擎,以及使用复杂聚合操作进行分析的高级实时数据分析系统 (3)大型集群运维优化 课程特点 (1)最全面的Elasticsearch运维、管理、调优、故障处理的知识体系:企业级监控体系的搭建,企业级集群部署,集群日常管理策略,集群版本升级方案,集群基准压测方案,集群数据的备份和恢复,系统核心配置参数,性能调优方案,故障处理方案 (2)全程每讲必练,大量上机实验,所有的运维、管理、部署、优化,全部上机实验 (3)从零开始,逐步搭建出一个大型可扩展、高性能、监控体系完善、管理体系健全的分布式集群 (4)学完课程之后,学员除了可以开发复杂的es搜索/分析系统之外,还可以掌握在任何一个公司里,从零开始搭建一个分布式的大型es集群,并制定完善的监控,运维,管理,优化等方案 (4)大型项目架构 课程特点 (1)涵盖Elasticsearch目前最核心的两个应用领域,垂直搜索引擎,实时数据分析 (2)开发出2个企业级的大型复杂项目,是完全真实的大型企业项目,电商搜索引擎,电商实时数据分析平台 (2-1)大型电商搜索引擎,包括了真正复杂的大型企业,大型项目的商业级搜索引擎架构,包括了检索、数据更新、排序、分词、query分析等各个核心模块,同时架构上实现了复杂的缓存机制,热启动机制,防雪崩机制,自动降级高可用机制,等等 (2-2)大型电商实时数据分析平台,完整、复杂而且大型的电商数据分析,包括了完善的数据分析指标体系(运营指标,流量指标,销售转化指标,客户价值指标,商品指标,营销指标,风险控制指标,市场竞争指标),一站式构建出复杂的,企业级的,电商领域数据分析平台 (2-3)之所以要单独拉出一做大型项目实战,是因为,之前几讲的项目,多是架构较为简单,业务也不复杂的项目,主要适用于中小型公司,而且那两个项目主要是集中在运用ES的技术本身来开发出需要的功能来(搜索/分析)。这一讲解的项目,重点是采用大公司的大型复杂项目作为背景,让同学可以掌握基于ES技术的大型项目架构能力,达到架构师的水平。比如说大型电商搜

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值