大数据
文章平均质量分 79
碧海凌云
从平凡到神奇
展开
-
Elasticsearch 三种分页方式
from + size 浅分页"浅"分页可以理解为简单意义上的分页。它的原理很简单,就是查询前20条数据,然后截断前10条,只返回10-20的数据。这样其实白白浪费了前10条的查询。GET test_dev/_search{ "query": { "bool": { "filter": [ { "term": { "age": 28 } } ] } },转载 2021-01-07 20:13:02 · 200 阅读 · 1 评论 -
Elasticsearch 常见的 8 种错误及最佳实践
题记Elasticsearch 社区有大量关于 Elasticsearch 错误和异常的问题。深挖这些错误背后的原因,把常见的错误积累为自己的实战经验甚至是工具,不仅可以节省我们的开发和运维时间,而且可以帮助确保 Elasticsearch 集群的长期健康运行。常见的异常、原因和常规最佳实践拆解如下,这些最佳实践可以帮助我们更有效地识别、最小化定位和处理异常问题。1、 Mapper_parsing_exceptionElasticsearch 依靠映射(Mapping)定义的数据类型处理数据。映转载 2020-08-20 23:11:36 · 3515 阅读 · 0 评论 -
MongoDB、Redis、elasticSearch、hbase的对比
MongoDB优点:(1) 最大的特点是表结构灵活可变,字段类型可以随时修改。(2) 插入数据时,不必考虑表结构的限制。(3) 不需要定义表结构这个特点给表结构的修改带来了极大的方便。缺点 给多表查询、复杂事务等高级操作带来了阻碍适用场景 (1) MongoDB很适合那些表结构经常改变,数据的逻辑结构没又没那么复杂不需要多表查询操作,数据量又比较大的应用场景。(2) 例如,有一个游戏应用,需要存储每个用户的信息,用户分为法师、战士等具有不同属性的角色,技能装备,MongoDB只需要一张转载 2020-08-09 18:34:18 · 371 阅读 · 0 评论 -
Flink 如何管理 Kafka 消费位点
原文:https://data-artisans.com/blog/how-apache-flink-manages-kafka-consumer-offsets作者:Fabian Hueske, Markos Sfikas译者:云邪(Jark)在本周的《Flink Friday Tip》中,我们将结合例子逐步讲解 Apache Flink 是如何与 Apache Kafka 协同工作并确保来自 Kafka topic 的消息以 exactly-once 的语义被处理。检查点(Checkpoint转载 2020-08-06 16:58:28 · 565 阅读 · 0 评论 -
Flink开发中遇到的问题及解法
当Source是Kafka的时候,如何设置Source Operator的并发度?如果没有指定,Source Operator的个数与集群中的TaskManager的个数相等。如果手动设置,建议使用的slot个数=Kafka Partition的个数/TaskManager的个数。此时,Slot的个数需大于等于2.因为其中有一个Source Operator。也不建议在一个Slot中启用多线程。Barrier如果丢失了怎么办?因为Barrier是从Source开始周期性的发送的,所以过一段时间.转载 2020-08-05 09:21:08 · 637 阅读 · 0 评论 -
flink任务性能优化
如何提高 Flink 任务性能一、Operator Chain为了更高效地分布式执行,Flink 会尽可能地将 operator 的 subtask 链接(chain)在一起形成 task,每个 task 在一个线程中执行。将 operators 链接成 task 是非常有效的优化:它能减少线程之间的切换,减少消息的序列化/反序列化,减少数据在缓冲区的交换,减少了延迟的同时提高整体的吞吐量。Flink 会在生成 JobGraph 阶段,将代码中可以优化的算子优化成一个算子链(Operator Chai转载 2020-08-04 20:09:57 · 1276 阅读 · 1 评论 -
全文搜索引擎 Elasticsearch 入门教程
全文搜索属于最常见的需求,开源的 Elasticsearch (以下简称 Elastic)是目前全文搜索引擎的首选。它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。Elastic 的底层是开源库 Lucene。但是,你没法直接用 Lucene,必须自己写代码去调用它的接口。Elastic 是 Lucene 的封装,提供了 REST API 的操作接口,开箱即用。本文从零开始,讲解如何使用 Elastic 搭建自己的全文搜索引擎。每一步都有详细的说明转载 2020-07-16 11:11:24 · 141 阅读 · 0 评论 -
Elasticsearch 和 MySQL 对比简要分析
Elasticsearch 和 MySQL 对比简要分析。背景我们开发一般的企业级Web应用,其实从本质上来说,都是对数据的增删查改进行各个维度的包装。所以说,不管你的程序如何开发,基本上,都离不开数据本身。那么,在开发企业级应用的过程中,很多同学一定遇到过这样的困惑,当完成了应用程序的基本增删查改功能之后,用户会经常吐槽当下的查询功能并不能满足自己的查询需求。这是因为,通常情况下,我们基于传...转载 2020-05-07 21:42:16 · 4848 阅读 · 0 评论 -
RabbitMQ和Kafka到底怎么选?
前言开源社区有好多优秀的队列中间件,比如RabbitMQ和Kafka,每个队列都貌似有其特性,在进行工程选择时,往往眼花缭乱,不知所措。对于RabbitMQ和Kafka,到底应该选哪个?RabbitMQ架构RabbitMQ是一个分布式系统,这里面有几个抽象概念。broker:每个节点运行的服务程序,功能为维护该节点的队列的增删以及转发队列操作请求。master queue:每个队列都...转载 2020-03-25 14:57:22 · 247 阅读 · 0 评论 -
ElasticSearch使用RestHighLevelClient进行搜索查询
Elasticsearch Java API有四类client连接方式:TransportClient、 RestClient 、Jest、 Spring_Data_Elasticsearch。其中TransportClient、 RestClient是Elasticsearch原生的api,TransportClient会在8.0版本中完成删除,替代的是HighLevelRestClient...转载 2020-02-23 11:11:10 · 5658 阅读 · 0 评论