自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

微信搜:import_bigdata,大数据领域硬核原创作者

GitHub搜:https://github.com/wangzhiwubigdata/God-Of-BigData

  • 博客(25)
  • 资源 (1)
  • 收藏
  • 关注

原创 impala + kudu | 大数据实时计算踩坑优化指南

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源一开始需要全量导入kudu,这时候我们先用sqoop把关系数据库数据导入临时表,再用impala从临时表导入kudu目标表由于sq...

2021-03-31 08:00:00 1343

原创 Delta Lake在Soul的应用实践

作者:张宏博,Soul大数据工程师一、背景介绍(一)业务场景传统离线数仓模式下,日志入库前首要阶段便是ETL,Soul的埋点日志数据量庞大且需动态分区入库,在按day分区的基础上,每天的动...

2021-03-30 08:30:00 239

转载 Flink会话窗口和定时器原理详解

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源前言在我们使用Flink DataStream API编写业务代码时,aggregate()算子、AggregateFunctio...

2021-03-29 22:57:23 1011

原创 Hudi on Flink在顺丰的实践应用

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源数据湖在大数据典型场景下应用调研个人笔记基于Flink和Druid的实时多维分析系统在蔚来汽车的应用生产上的坑才是真的坑 | 盘一...

2021-03-28 18:08:49 361

原创 Netflix公司Druid应用实践

Netflix(Nasdaq NFLX),也就是网飞公司,成立于1997年,是一家在线影片[租赁]提供商,主要提供Netflix超大数量的[DVD]并免费递送,总部位于美国加利福尼亚州洛斯...

2021-03-25 08:00:00 311

转载 数据湖在大数据典型场景下应用调研个人笔记

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施;以数据为导向,实现任意来源、任意速度、任意规模、任意类型数据的全...

2021-03-23 08:00:00 582

转载 提高大数据计算作业执行性能的一点建议

这年代,做数据的,没人不知道 Spark 是什么吧。作为最火的大数据计算引擎,现在基本上是各互联网大厂的标配了。比如,字节跳动基于 Spark 构建的数据仓库,服务了几乎所有的产品线,包...

2021-03-22 08:01:00 398

转载 基于Flink和Druid的实时多维分析系统在蔚来汽车的应用

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源实时方案之数据湖探究调研笔记生产上的坑才是真的坑 | 盘一盘Flink那些经典线上问题FileSystem/JDBC/Kafka ...

2021-03-21 13:36:59 541

转载 实时方案之数据湖探究调研笔记

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源什么是数据湖数据湖是目前比较热的一个概念,许多企业都在构建或者计划构建自己的数据湖。但是在计划构建数据湖之前,搞清楚什么是数据湖,...

2021-03-20 22:16:19 440

原创 生产上的坑才是真的坑 | 盘一盘Flink那些经典线上问题

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源数据倾斜导致子任务积压业务背景一个流程中,有两个重要子任务:一是数据迁移,将kafka实时数据落Es,二是将kafka数据做窗口聚...

2021-03-18 21:01:13 1163

转载 Upsert Kafka Connector - 让实时统计更简单

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源在某些场景中,例如读取 compacted topic 或者输出(更新)聚合结果的时候,需要将 Kafka 消息记录的 key 当...

2021-03-16 23:22:22 1945

原创 FileSystem/JDBC/Kafka - Flink三大Connector实现原理及案例

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源本文分别讲述了Flink三大Connector:FileSystem Connector、JDBC Connector和Kafka...

2021-03-15 08:00:00 1262

原创 大数据下的精准实时监控系统 | Promethus or Zabbix?

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源 监控目标我们先来了解什么是监控,监控的重要性以及监控的目标,当然每个人所在的行业不同、公司不同、业务不同、岗位不同、对监控...

2021-03-13 21:38:01 4066

转载 企业数据治理及在美团的最佳实践

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源作者丨石秀峰今天我们来探讨一下关于数据治理的灵魂三问:1、数据治理治什么,治的是数据吗?2、数据治理在哪里治,中台还是后台?3、数...

2021-03-11 22:46:50 1284

转载 Elasticsearch在各大互联网公司的应用案例

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源国内现在有大量的公司都在使用 Elasticsearch,包括携程、滴滴、今日头条、饿了么、360安全、小米、vivo等诸多知名公...

2021-03-08 22:50:07 345

原创 你爱或者不爱,他都在那里 - 云/边/端三协同下的边缘计算

「点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源科普时间首先,我们要来科普一下『边缘计算』。你去百度或者Google搜索,会有一大段的概念映入眼帘:在百度百科上:边缘计算,是指...

2021-03-07 19:13:27 594 1

原创 Flink实例(129):状态管理(十八)Table API 和 SQL 模块状态管理(三) Flink SQL空闲状态保留时间(idle state retention time)实现原理

为什么要设置  如果我们在数据流上进行分组查询,分组处理产生的结果(不仅仅是聚合结果)会作为中间状态存储下来。随着分组key的不断增加,状态自然也会不断膨胀。但是这些状态数据基本都有时效性,不必永久保留。例如,使用Top-N语法进行去重,重复数据的出现一般都位于特定区间内(例如一小时或一天内),过了这段时间之后,对应的状态就不再需要了。Flink SQL提供的idle state retention time特性可以保证当状态中某个key对应的数据未更新的时间达到阈值时,该条状态被自动清理。设置方法是:

2021-03-07 11:53:24 1037

原创 Flink实例(128):状态管理(十七)Table API 和 SQL 模块状态管理(二)

问题引入同样以官网文档的案例为起点,这是一个持续查询的 GROUP BY 语句,它没有时间窗口的定义,理论上会无限地计算下去:SELECT sessionId, COUNT(*) FROM clicks GROUP BY sessionId;这就带来了一个问题:随着时间的不断推进,内存中积累的状态会越来越多,因为数据流是无穷无尽、持续流入的,Flink 并不知道如何丢弃旧的数据。在这种情况下,如果放任不管,那么迟早有一天作业的状态数达到了存储系统的容量极限,从而造成作业的崩溃。针对这个问题

2021-03-07 11:52:35 583

原创 Flink实例(127):状态管理(十六)Table API 和 SQL 模块状态管理(一)

一、简介Flink官网的自我介绍:Apache Flink® — Stateful Computations over Data Streams,可以看出状态计算是 Flink 引以为豪的杀手锏。那什么是带状态的计算呢?简单说计算任务的结果不仅仅依赖于输入,还依赖于它的当前状态。实时计算如果任务失败导致中间状态丢失,将是一个非常可怕的事情。比如实时计算每天的 pv,uv 等指标,任务掉线后中间状态也丢失了,那只能从凌晨数据重新计算。如果是有状态的计算大可不必担心,从任务掉线的时刻继续计算,妈

2021-03-07 11:52:00 940

原创 Flink实例(126):状态管理(十五)State 过期时间TTL

一、简介Flink官网的自我介绍:Apache Flink® — Stateful Computations over Data Streams,可以看出状态计算是 Flink 引以为豪的杀手锏。那什么是带状态的计算呢?简单说计算任务的结果不仅仅依赖于输入,还依赖于它的当前状态。实时计算如果任务失败导致中间状态丢失,将是一个非常可怕的事情。比如实时计算每天的 pv,uv 等指标,任务掉线后中间状态也丢失了,那只能从凌晨数据重新计算。如果是有状态的计算大可不必担心,从任务掉线的时刻继续计算,妈

2021-03-07 11:50:53 1804

原创 Flink实例(125):状态管理(十四)自定义操作符状态(五)list state(二)

1.需求/** * 需求:每两个元素输出一次 */2 代码package com.nx.streaming.lesson03;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.streaming.api.datastream.DataStreamSource;import org.apache.flink.streaming.api.environment.StreamExecu......

2021-03-07 11:49:49 469

转载 快手基于 RocketMQ 的在线消息系统建设实践

作者:黄理,10 多年软件开发和架构经验,热衷于代码和性能优化,开发和参与过多个开源项目。曾在淘宝任业务架构师多年,当前在快手负责在线消息系统建设工作。为什么建设在线消息系统在引入 Ro...

2021-03-04 00:00:00 405 1

转载 腾讯阿里头条翻牌子 | ClickHouse中MergeTree的存储结构和查询加速

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源在上上一篇文章中《ClickHouse表引擎到底怎么选》,我们提到了ClickHouse的引擎选择问题,本文中我们会介绍在Clic...

2021-03-03 08:50:53 459 1

原创 Kafka Connect | 无缝结合Kafka构建高效ETL方案

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源很多同学可能没有接触过 Kafka Connect,大家要注意不是Connector。Kafka Connect 是一款可扩展并且...

2021-03-02 08:00:00 834

转载 腾讯阿里头条翻牌子 | ClickHouse中SQL执行过程

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源在上一篇文章中《ClickHouse表引擎到底怎么选》,我们提到了ClickHouse的引擎选择问题,本文中我们会介绍在Click...

2021-03-01 00:05:00 1023 1

大数据面试大总结300页.zip

大数据面试大总结300页.zip

2021-07-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除