2021年03月_王知无(import_bigdata)

原创 impala + kudu | 大数据实时计算踩坑优化指南

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源一开始需要全量导入kudu，这时候我们先用sqoop把关系数据库数据导入临时表，再用impala从临时表导入kudu目标表由于sq...

2021-03-31 08:00:00 1343

原创 Delta Lake在Soul的应用实践

作者：张宏博，Soul大数据工程师一、背景介绍（一）业务场景传统离线数仓模式下，日志入库前首要阶段便是ETL，Soul的埋点日志数据量庞大且需动态分区入库，在按day分区的基础上，每天的动...

2021-03-30 08:30:00 239

转载 Flink会话窗口和定时器原理详解

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源前言在我们使用Flink DataStream API编写业务代码时，aggregate()算子、AggregateFunctio...

2021-03-29 22:57:23 1011

原创 Hudi on Flink在顺丰的实践应用

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源数据湖在大数据典型场景下应用调研个人笔记基于Flink和Druid的实时多维分析系统在蔚来汽车的应用生产上的坑才是真的坑 | 盘一...

2021-03-28 18:08:49 362

原创 Netflix公司Druid应用实践

Netflix(Nasdaq NFLX)，也就是网飞公司，成立于1997年，是一家在线影片[租赁]提供商，主要提供Netflix超大数量的[DVD]并免费递送，总部位于美国加利福尼亚州洛斯...

2021-03-25 08:00:00 311

转载数据湖在大数据典型场景下应用调研个人笔记

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施；以数据为导向，实现任意来源、任意速度、任意规模、任意类型数据的全...

2021-03-23 08:00:00 582

转载提高大数据计算作业执行性能的一点建议

这年代，做数据的，没人不知道 Spark 是什么吧。作为最火的大数据计算引擎，现在基本上是各互联网大厂的标配了。比如，字节跳动基于 Spark 构建的数据仓库，服务了几乎所有的产品线，包...

2021-03-22 08:01:00 398

转载基于Flink和Druid的实时多维分析系统在蔚来汽车的应用

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源实时方案之数据湖探究调研笔记生产上的坑才是真的坑 | 盘一盘Flink那些经典线上问题FileSystem/JDBC/Kafka ...

2021-03-21 13:36:59 541

转载实时方案之数据湖探究调研笔记

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源什么是数据湖数据湖是目前比较热的一个概念，许多企业都在构建或者计划构建自己的数据湖。但是在计划构建数据湖之前，搞清楚什么是数据湖，...

2021-03-20 22:16:19 440

原创生产上的坑才是真的坑 | 盘一盘Flink那些经典线上问题

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源数据倾斜导致子任务积压业务背景一个流程中，有两个重要子任务：一是数据迁移，将kafka实时数据落Es，二是将kafka数据做窗口聚...

2021-03-18 21:01:13 1163

转载 Upsert Kafka Connector - 让实时统计更简单

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源在某些场景中，例如读取 compacted topic 或者输出（更新）聚合结果的时候，需要将 Kafka 消息记录的 key 当...

2021-03-16 23:22:22 1945

原创 FileSystem/JDBC/Kafka - Flink三大Connector实现原理及案例

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源本文分别讲述了Flink三大Connector：FileSystem Connector、JDBC Connector和Kafka...

2021-03-15 08:00:00 1262

原创大数据下的精准实时监控系统 | Promethus or Zabbix?

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源监控目标我们先来了解什么是监控，监控的重要性以及监控的目标，当然每个人所在的行业不同、公司不同、业务不同、岗位不同、对监控...

2021-03-13 21:38:01 4071

转载企业数据治理及在美团的最佳实践

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源作者丨石秀峰今天我们来探讨一下关于数据治理的灵魂三问：1、数据治理治什么，治的是数据吗？2、数据治理在哪里治，中台还是后台？3、数...

2021-03-11 22:46:50 1285

转载 Elasticsearch在各大互联网公司的应用案例

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源国内现在有大量的公司都在使用 Elasticsearch，包括携程、滴滴、今日头条、饿了么、360安全、小米、vivo等诸多知名公...

2021-03-08 22:50:07 345

原创你爱或者不爱，他都在那里 - 云/边/端三协同下的边缘计算

「点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源科普时间首先，我们要来科普一下『边缘计算』。你去百度或者Google搜索，会有一大段的概念映入眼帘：在百度百科上：边缘计算，是指...

2021-03-07 19:13:27 594 1

原创 Flink实例（129）：状态管理(十八)Table API 和 SQL 模块状态管理(三) Flink SQL空闲状态保留时间（idle state retention time）实现原理

为什么要设置　　如果我们在数据流上进行分组查询，分组处理产生的结果(不仅仅是聚合结果)会作为中间状态存储下来。随着分组key的不断增加，状态自然也会不断膨胀。但是这些状态数据基本都有时效性，不必永久保留。例如，使用Top-N语法进行去重，重复数据的出现一般都位于特定区间内(例如一小时或一天内)，过了这段时间之后，对应的状态就不再需要了。Flink SQL提供的idle state retention time特性可以保证当状态中某个key对应的数据未更新的时间达到阈值时，该条状态被自动清理。设置方法是：

2021-03-07 11:53:24 1037

微信搜：import_bigdata，大数据领域硬核原创作者

原创 impala + kudu | 大数据实时计算踩坑优化指南

原创 Delta Lake在Soul的应用实践

转载 Flink会话窗口和定时器原理详解

原创 Hudi on Flink在顺丰的实践应用

原创 Netflix公司Druid应用实践

转载数据湖在大数据典型场景下应用调研个人笔记

转载提高大数据计算作业执行性能的一点建议

转载基于Flink和Druid的实时多维分析系统在蔚来汽车的应用

转载实时方案之数据湖探究调研笔记

原创生产上的坑才是真的坑 | 盘一盘Flink那些经典线上问题

转载 Upsert Kafka Connector - 让实时统计更简单

原创 FileSystem/JDBC/Kafka - Flink三大Connector实现原理及案例

原创大数据下的精准实时监控系统 | Promethus or Zabbix?

转载企业数据治理及在美团的最佳实践

转载 Elasticsearch在各大互联网公司的应用案例

原创你爱或者不爱，他都在那里 - 云/边/端三协同下的边缘计算

原创 Flink实例（129）：状态管理(十八)Table API 和 SQL 模块状态管理(三) Flink SQL空闲状态保留时间（idle state retention time）实现原理

原创 Flink实例（128）：状态管理(十七)Table API 和 SQL 模块状态管理(二)

原创 Flink实例（127）：状态管理(十六)Table API 和 SQL 模块状态管理(一)

原创 Flink实例（126）：状态管理(十五)State 过期时间TTL

原创 Flink实例（125）：状态管理（十四）自定义操作符状态（五）list state（二）

转载快手基于 RocketMQ 的在线消息系统建设实践

转载腾讯阿里头条翻牌子 | ClickHouse中MergeTree的存储结构和查询加速

原创 Kafka Connect | 无缝结合Kafka构建高效ETL方案

转载腾讯阿里头条翻牌子 | ClickHouse中SQL执行过程

大数据面试大总结300页.zip

空空如也