当前搜索:

[置顶] 死磕 Elasticsearch 方法论:普通程序员高效精进的 10 大狠招!

作者/分享人:铭毅天下 GitChat地址:http://gitbook.cn/gitchat/activity/5a79b8fd7648740c4c24e707 人工智能、大数据快速发展的今天,对于 TB 甚至 PB 级大数据的快速检索已然成为刚需。Elasticsearch 作为开源领域的...
阅读(662) 评论(0)

[置顶] Elasticsearch深入详解-知识图谱(每周更新)

1、题记 Elasticsearch技术已经燃爆到飞的感觉。 为了方便订阅Elasticsearch深入详解的博友们第一时间获取最新经验分享,和大家一起成长,特将本专栏内容制作为Elasticsearch深入详解知识图谱。 并承诺【铭毅天下】微信公众号每周不定时推送ES深入研究文章至少一篇...
阅读(3374) 评论(2)

[置顶] Elasticsearch学习,请先看这一篇!

题记:Elasticsearch研究有一段时间了,现特将Elasticsearch相关核心知识、原理从初学者认知、学习的角度,从以下9个方面进行详细梳理。欢迎讨论……0. 带着问题上路——ES是如何产生的?(1)思考:大规模数据如何检索?如:当系统数据量上了10亿、100亿条的时候,我们在做系统架...
阅读(35428) 评论(13)

[置顶] Elasticsearch的使用场景深入详解

了解了ES的使用场景,ES的研究、使用、推广才更有价值和意义。1、场景—:使用Elasticsearch作为主要的后端传统项目中,搜索引擎是部署在成熟的数据存储的顶部,以提供快速且相关的搜索能力。这是因为早期的搜索引擎不能提供耐用的​​存储或其他经常需要的功能,如统计。 Elasticsea...
阅读(29704) 评论(6)

Elasticsearch实战 | 必要的时候,还得空间换时间!

1、应用场景 实时数据流通过kafka后,根据业务需求,一部分直接借助kafka-connector入Elasticsearch不同的索引中。 另外一部分,则需要先做聚类、分类处理,将聚合出的分类结果存入ES集群的聚类索引中。如下图所示: 业务系统的分层结构可分为:接入层、数据处理层、数据存...
阅读(168) 评论(0)

Elasticsearch全量数据增量遍历实现原理

0、需求 针对凤凰网财经版块的新闻数据和评论数据, 1个索引存储采集凤凰网财经版块的新闻数据;1个索引存储相关的财经数据评论结果。 统计: 1)某条新闻的评论数的多少? 2)某条评论属于哪条新闻? 3)当前已采集数据的所有评论、评论数汇总,按照评论数逆序排序,以便于图形化展示。 1...
阅读(186) 评论(0)

Elasticsearch索引增量统计及定时邮件实现

0、需求 随着ELKStack在应用系统中的数据规模的急剧增长,每天千万级别数据量(存储大小:10000000*10k/1024/1024=95.37GB,假设单条数据10kB,实际远大于10KB)的累积成为日常需求。 如何以相对简单的图形化效果展示数据的增量呢? 本文给出思路和实现。 ...
阅读(106) 评论(0)

Elasticsearch聚合优化 | 聚合速度提升5倍

1、聚合为什么慢? 大多数时候对单个字段的聚合查询还是非常快的, 但是当需要同时聚合多个字段时,就可能会产生大量的分组,最终结果就是占用 es 大量内存,从而导致 OOM 的情况发生。 实践应用发现,以下情况都会比较慢: 1)待聚合文档数比较多(千万、亿、十亿甚至更多); 2)聚合条件比较...
阅读(509) 评论(0)

Elasticsearch实战 | match_phrase搜不出来,怎么办?

1、问题抛出 某个词组在Elasitcsearch中的某个document中存在,就一定通过某种匹配方式把它搜出来。 举例: title=公路局正在治理解放大道路面积水问题。 输入关键词:道路,能否搜索到这个document呢? 实际应用中可能需要: 1)检索关键词”理解”、”...
阅读(385) 评论(1)

Elasticsearch聚合后分页深入详解

1、Elasticsearch支持聚合后分页吗,为什么? 不支持,看看Elasticsearch员工如何解读。 这个问题,2014年在github上有很长的讨论。究其为什么ES不支持聚合后分页?可概括如下: 1)性能角度——聚合分页会在大量的记录中产生性能问题。 2)正确性角度——...
阅读(1027) 评论(0)

Elasticsearch聚合深入详解——对比Mysql实现

聚合认知前提 桶(Buckets)——满足特定条件的文档的集合 指标(Metrics)——对桶内的文档进行统计计算 SELECT COUNT(color) FROM table GROUP BY color COUNT(color) 相当于指标。 GROUP BY color 相当...
阅读(683) 评论(0)

kafka最常用命令清单

kafka版本:V0.2.10.1 zookeeper版本:V3.4.11 confluent版本:V3.3.0 一、confluent相关启动 1、启动confluent: ./schema-registry-start -daemon ./etc/schema-regi...
阅读(355) 评论(0)

持续精进——我的2017年终总结

2017年,在忙碌和频繁的加班中度过。“每天数你忙”,多少个加班后的夜晚老婆对我说“等你等的菜都凉了,好久没在一起吃晚饭了”。 “你那么忙,要不我们就不过去了吧?工作要紧”,和老爸视频的时候,老爸说。元旦假期的第一天,我反思: 1、工作就真的那么忙吗?忙的和老婆少了沟通,夫妻间平添了不少矛盾;...
阅读(743) 评论(6)

kafka数据同步Elasticsearch深入详解

1、kafka同步到Elasticsearch方式?目前已知常用的方式有四种: 1)logstash_input_kafka插件; 缺点:不稳定(ES中文社区讨论) 2)spark stream同步; 缺点:太庞大 3)kafka connector同步; 4)自写程序读取、解析、写入...
阅读(2559) 评论(0)

实战 | Elasticsearch打造知识库检索系统

题记源自“死磕Elasticsearch”技术群里的讨论问题: ——我想用es做个类似于知识库的东西,所以需要索引一些pdf、word之类的文件,这个你之前有试过吗?能给个方向吗?我的思考如下:1、pdf、Office类的文档如何被ES索引?更确切的说,pdf、Office类文档(word,pp...
阅读(1255) 评论(1)

假如,我来做一款产品?

作为软件开发工程师,职业生涯中的我们往往都是在为别人“打工”,我们在既定的项目团队或者产品团队中,在为某一个或某几个模块在“忙碌”。从项目规划、项目需求、模块预言、模块概要设计、模块详细设计、模块开发、模块单元测试、黑盒测试、多模块上下游联调联试、产品版本或项目发布、直至项目验收成功。我们不止经历...
阅读(413) 评论(0)

人生就是不断自我颠覆——《颠覆者》读书心得

在外企里沉浸了一段时间,我终于明白,很多人在跨国公司里工作,首先想的是明哲保身。人们彬彬有礼地在邮件里踢着皮球,用非常礼貌、文雅的英文互相推诿责任。在年终聚会上,大家做出一堆眼花缭乱的PPT来麻醉自己,整个团队都像是生活在《皇帝的新装》里,毫无地气可言。——周鸿祎本来不打算再读非作者本人独立撰写的...
阅读(1750) 评论(0)

DSL的诞生 | 复杂sql转成Elasticsearch DSL深入详解

源自死磕ElasticsearchQQ群(626036393)中的一个问题: 问题如下:where (position=ES or work=ES or content=ES) and academic=本科 and (city=北京 or city=深圳)怎么构建ES的查询条件?我的问题拆解与...
阅读(1774) 评论(0)

干货 |《深入理解Elasticsearch》读书笔记

题记由于之前已经梳理过Elasticsearch基础概念且在项目中实战过Elasticsearch的增删改查、聚类、排序等相关操作,对ES算是有了一定的认知。但是,仍然对于一些底层的原理认知模糊,特买来《深入理解Elasticsearch》过了一遍,将书中一些细节知识点结合官网文档梳理如下。1——...
阅读(2662) 评论(0)

实战 | Elasticsearch实现类Google高级检索

少废话,说正事。一、高级检索的功能点通过高级搜索配置搜索项,能更准确的过滤掉不相干信息,获取最想要的检索信息。 以Google搜索为例(截取核心片段): 二、高级检索拆分1、包含以下全部的关键词:需要分词处理; 若需要指定字段,则使用matchQuery实现; 若无需指定字段的全文检索,则...
阅读(11079) 评论(0)
  最高效的Elasticsearch实战精进群!
  个人资料
  专栏达人 持之以恒
  等级:
  访问量: 155万+
  积分: 1万+
  排名: 685
  博客专栏
  最新评论