大数据研习社

关注微信“大数据研习社”,每天一份干货资料免费领取!

15案例 + 3实战 + 2项目,彻底讲透基于大数据体系构建数据仓库(有免费资料领取哦)

广告时间,一单身美女想找男朋友,要求如下: 没房没关系,有5年以上基于大数据体系构建数据仓库经验,能管控数仓数据质量、数仓建模、元数据管理开源组件二次开发。做过用户增长、数据标签系统、数据中台,为人踏实可靠。有意愿男士请 》》点击联系。 闲言碎语不多讲,老铁们,直接上硬菜! 一看老师背景就...

2019-07-23 16:37:38

阅读数 100

评论数 0

Apache Flink 漫谈系列(14) - DataStream Connectors之Kafka

聊什么 为了满足本系列读者的需求,在完成《Apache Flink 漫谈系列(14) - DataStream Connectors》之前,我先介绍一下Kafka在Apache Flink中的使用。所以本篇以一个简单的示例,向大家介绍在Apache Flink中如何使用Kafka。 Kafka...

2019-04-30 17:46:22

阅读数 100

评论数 0

Apache Flink 漫谈系列(13) - Table API 概述

什么是Table API 在《Apache Flink 漫谈系列(08) - SQL概览》中我们概要的向大家介绍了什么是好SQL,SQL和Table API是Apache Flink中的同一层次的API抽象,如下图所示: Apache Flink 针对不同的用户场景提供了三层用户API,最下层...

2019-04-29 11:01:49

阅读数 84

评论数 0

Apache Flink 漫谈系列(12) - Time Interval(Time-windowed) JOIN

说什么 JOIN 算子是数据处理的核心算子,前面我们在《Apache Flink 漫谈系列(09) - JOIN 算子》介绍了UnBounded的双流JOIN,在《Apache Flink 漫谈系列(10) - JOIN LATERAL》介绍了单流与UDTF的JOIN操作,在《Apache Fl...

2019-04-29 10:59:35

阅读数 196

评论数 0

Apache Flink 漫谈系列(11) - Temporal Table JOIN

什么是Temporal Table 在《Apache Flink 漫谈系列 - JOIN LATERAL》中提到了Temporal Table JOIN,本篇就向大家详细介绍什么是Temporal Table JOIN。 在ANSI-SQL 2011中提出了Temporal 的概念,Oracle...

2019-04-28 17:06:49

阅读数 76

评论数 0

Apache Flink 漫谈系列(10) - JOIN LATERAL

聊什么 上一篇《Apache Flink 漫谈系列 - JOIN算子》我们对最常见的JOIN做了详尽的分析,本篇介绍一个特殊的JOIN,那就是JOIN LATERAL。JOIN LATERAL为什么特殊呢,直观说因为JOIN的右边不是一个实际的物理表,而是一个VIEW或者Table-valued...

2019-04-28 17:04:27

阅读数 70

评论数 0

Apache Flink 漫谈系列(09) - JOIN 算子

聊什么 在《Apache Flink 漫谈系列 - SQL概览》中我们介绍了JOIN算子的语义和基本的使用方式,介绍过程中大家发现Apache Flink在语法语义上是遵循ANSI-SQL标准的,那么再深思一下传统数据库为啥需要有JOIN算子呢?在实现原理上面Apache Flink内部实现和传...

2019-04-26 17:00:07

阅读数 70

评论数 0

别懵逼,用户画像其实是这么回事儿

大数据研习社这个社群运营至今,已有QQ群50+,微信群10+,微信/头条/博客多维度覆盖,触及影响的大数据人群20万+。好学君发现,在大数据领域,大家讨论比较多而且“来钱”最快的领域就是用户画像以及个性化推荐这块儿啦。但很多同学又觉得用户画像特别难“搞”,不好落地而且依赖的技术多资源多。 好学君...

2019-04-26 16:54:09

阅读数 224

评论数 0

Apache Flink 漫谈系列(08) - SQL概览

SQL简述 SQL是Structured Query Language的缩写,最初是由美国计算机科学家Donald D. Chamberlin和Raymond F. Boyce在20世纪70年代早期从Early History of SQL中了解关系模型后在IBM开发的。该版本最初称为[SEQU...

2019-04-25 16:32:20

阅读数 65

评论数 0

Apache Flink 漫谈系列(07) - 持续查询(Continuous Queries)

实际问题 我们知道在流计算场景中,数据是源源不断的流入的,数据流永远不会结束,那么计算就永远不会结束,如果计算永远不会结束的话,那么计算结果何时输出呢?本篇将介绍Apache Flink利用持续查询来对流计算结果进行持续输出的实现原理。 数据管理 在介绍持续查询之前,我们先看看Apache ...

2019-04-25 16:28:01

阅读数 52

评论数 0

Apache Flink 漫谈系列(06) - 流表对偶(duality)性

实际问题 很多大数据计算产品,都对用户提供了SQL API,比如Hive, Spark, Flink等,那么SQL作为传统关系数据库的查询语言,是应用在批查询场景的。Hive和Spark本质上都是Batch的计算模式(在《Apache Flink 漫谈系列 - 概述》我们介绍过Spark是Mic...

2019-04-24 16:04:33

阅读数 31

评论数 0

Apache Flink 漫谈系列(05) - Fault Tolerance

实际问题 在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。那么在计算过程中如果网络、机器等原因导致Task运行失败了,Apache Flink会如何处理呢?在 《Apache Flink 漫谈系列 - State》一篇中我们...

2019-04-24 15:54:38

阅读数 43

评论数 0

Apache Flink 漫谈系列(04) - State

实际问题 在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重新新计算一次,还是每次计算都是在上一次计算结果之上进行增量计算呢?答案是肯定的,Apa...

2019-04-23 15:32:42

阅读数 92

评论数 0

Apache Flink 漫谈系列(03) - Watermark

实际问题(乱序) 在介绍Watermark相关内容之前我们先抛出一个具体的问题,在实际的流式计算中数据到来的顺序对计算结果的正确性有至关重要的影响,比如:某数据源中的某些数据由于某种原因(如:网络原因,外部存储自身原因)会有5秒的延时,也就是在实际时间的第1秒产生的数据有可能在第5秒中产生的数据...

2019-04-23 15:19:17

阅读数 81

评论数 0

Apache Flink 漫谈系列(02) - 概述

Apache Flink 的命脉 "命脉" 即生命与血脉,常喻极为重要的事物。系列的首篇,首篇的首段不聊Apache Flink的历史,不聊Apache Flink的架构,不聊Apache Flink的功能特性,我们用一句话聊聊什么是 Apache Flink 的命脉?我的答...

2019-04-22 15:09:34

阅读数 110

评论数 0

Apache Flink 漫谈系列(01) - 序

Apache Flink 漫谈系列会分享什么呢?本系列分享的核心内容会围绕 Apache Flink的核心特征以及阿里巴巴对Apache Flink功能的丰富和性能、架构的优化进行深入剖析,从系统架构到具体每个算子的语义都会向读者进行细致分享,并且以图文和具体示例的方式讲解具体算子的实现原理。 ...

2019-04-22 14:50:21

阅读数 75

评论数 0

月薪3万+的大数据人都在疯学Flink,为什么?

身处大数据圈近5年了,在我的概念里一直认为大数据最牛的两个东西是Hadoop和Spark。18年下半年的时候,我突然发现身边很多大数据牛人都是研究学习Flink,甚至连Spark都大有被冷落抛弃的感觉。何以至此,Flink是个什么鬼? Apache Flink(简称Flink)是一个分布式大...

2019-04-04 11:57:37

阅读数 254

评论数 0

Flink学习笔记:Connectors之kafka

说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程: Flink大数据项目实战:http://t.cn/ExrHPl9 1. Kafka-connector概述及FlinkKafkaConsumer(ka...

2019-03-25 14:53:30

阅读数 493

评论数 0

Flink随堂笔记:Connectors概述

说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程: Flink大数据项目实战:http://t.cn/ExrHPl9 1. 各种Connector 1.1Connector是什么鬼 Connectors...

2019-03-25 14:43:47

阅读数 102

评论数 0

Flink学习笔记:异步I/O访问外部数据

说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程: Flink大数据项目实战:http://t.cn/ExrHPl9 Aysnc I/O 1.1Aysnc I/O是啥? Async I/O 是阿里巴...

2019-03-22 16:14:11

阅读数 215

评论数 0

提示
确定要删除当前文章?
取消 删除