elasticsearch学习
老余不爱吃鱼
这个作者很懒,什么都没留下…
展开
-
三、elasticsearch架构原理
引言从数据流向和分布的层面,介绍es的工作原理和架构设计,然后针对性的做性能优化、故障处理等。这次主要介绍es的准实时索引的实现、segment的影响、routing和replica的的读写过程,shard的allocate控制以及自动发现的配置做一些介绍。而关于更底层的lucene的原理,在以后会做一些简单介绍。1、准实时索引的实现 把es的每个分片(shard)当做一个lucene,...原创 2019-03-16 20:18:42 · 1257 阅读 · 0 评论 -
四、es6.3.1基于searchguard实现多租户
引言 search-guard是Elasticsearch的一个安全权限plugin,权限控制粒度可以到indices、types,甚至可以到过滤field层次。同时也可以限制用户行为CRUD, admin权限等。search-guard可以实现用户访问es中日志需要登陆授权,不同用户访问不同索引,不授权的索引无法查看,从而实现分组控制不同用户查看各自的业务。1、search-guard插件...原创 2019-05-23 16:54:48 · 1867 阅读 · 0 评论 -
五、es6.x版本mapping设置介绍
Mapping主要类似数据库中表字段定义,主要有如下作用:定义Index下字段名(Field Name)定义字段的类型,比如数值型,字符串型、布尔型等定义倒排索引的相关配置,比如是否索引、记录postion等需要注意的是,在索引中定义太多字段可能会导致索引膨胀,出现内存不足和难以恢复的情况,下面有几个设置:index.mapping.total_fields.limit:一个索引中能定...原创 2019-08-15 18:31:00 · 2238 阅读 · 0 评论 -
六、海量hive数据写入es优化
场景:业务部门将客户画像结果表通过hive映射到es表,其中结果表600W条数据,但每条数据接近2W个标签,数据入到es后主要场景是多字段组合过滤查询后聚合求和。优化思路es默认最大字段数是1000,需要增大字段数hive端优化: hive的取数据的速度大于写入到es的速度,es会由于集群规模问题或者资源问题无法同时接收hive过多的并发数。 由此hive端主要优化是减小map数set...原创 2019-08-16 11:21:40 · 3849 阅读 · 0 评论 -
二、elasticsearch的安装
es的安装使用一、安装前环境准备1、五台centos7机器,一台客户端节点,三台作为master节点,五台data数据节点,并挂载好数据盘2、5台机器配置好elasticsearch用户的免密在elasticsearch用户下执行ssh-keygen -t -rsa,按回车shell命令行for i in seq 1 5dossh-copy-id node-$idone3、每台...原创 2019-03-16 15:48:01 · 223 阅读 · 0 评论 -
一、为什么选择elasticsearch
一个技术服务组件,首先需要了解它的使用场景,才能更针对性的去研究及推广。 首先es作为针对海量数据的分布式存储和快速搜索场景的服务,主要是将全文检索、数据分析以及分布式技术合并在了一起,通过横向扩容和新建索引满足不同的业务场景。 分析数据(group、sort、count),快速模糊匹配并高亮显示,同义词和停顿次处理,相关度排名,复杂数据分析,海量数据的近实时处理等。 优...原创 2019-03-16 14:54:20 · 883 阅读 · 0 评论