Spark
大数据研习社
「大数据研习社」号主,实战大数据(Hadoop+Spark+Flink)作者,从Java开发到大数据开发13年。微信:dashuju_2017,加好友备注CSDN。
展开
-
工作3年,月薪20k+的大数据开发人员,突然说我不想只做Hadoop、Spark、Flink层面的技术开发
“不管国内或全球“新冠”疫情有多严重、还得持续多久,我只想先保住我的工作,如果降薪,我也能在短时间找到待遇更好的下一个东家”。 ——《大数据就...原创 2020-04-22 17:12:42 · 695 阅读 · 0 评论 -
拉你和国内大厂实力派数据人一起切磋学艺,内推就业也不愁
“不管国内或全球“新冠”疫情有多严重、还得持续多久,我只想先保住我的工作,如果降薪,我也能在短时间找到待遇更好的下一个东家”。 ——《大数据就...原创 2020-04-22 17:11:27 · 274 阅读 · 0 评论 -
Apache Flink 漫谈系列(13) - Table API 概述
什么是Table API在《Apache Flink 漫谈系列(08) - SQL概览》中我们概要的向大家介绍了什么是好SQL,SQL和Table API是Apache Flink中的同一层次的API抽象,如下图所示:Apache Flink 针对不同的用户场景提供了三层用户API,最下层ProcessFunction API可以对State,Timer等复杂机制进行有效的控制,但用户使用...转载 2019-04-29 11:01:49 · 415 阅读 · 0 评论 -
Apache Flink 漫谈系列(11) - Temporal Table JOIN
什么是Temporal Table在《Apache Flink 漫谈系列 - JOIN LATERAL》中提到了Temporal Table JOIN,本篇就向大家详细介绍什么是Temporal Table JOIN。在ANSI-SQL 2011中提出了Temporal 的概念,Oracle,SQLServer,DB2等大的数据库厂商也先后实现了这个标准。Temporal Table记录了...转载 2019-04-28 17:06:49 · 1273 阅读 · 0 评论 -
Apache Flink 漫谈系列(10) - JOIN LATERAL
聊什么上一篇《Apache Flink 漫谈系列 - JOIN算子》我们对最常见的JOIN做了详尽的分析,本篇介绍一个特殊的JOIN,那就是JOIN LATERAL。JOIN LATERAL为什么特殊呢,直观说因为JOIN的右边不是一个实际的物理表,而是一个VIEW或者Table-valued Funciton。如下图所示:本篇会先介绍传统数据库对LATERAL JOIN的支持,然后介...转载 2019-04-28 17:04:27 · 4160 阅读 · 2 评论 -
Apache Flink 漫谈系列(04) - State
实际问题在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重新新计算一次,还是每次计算都是在上一次计算结果之上进行增量计算呢?答案是肯定的,Apache Flink是基于上一次的计算结果进行增量计算的。那么问题来了: "上一次的计算结果保存在哪里,...转载 2019-04-23 15:32:42 · 711 阅读 · 0 评论 -
Apache Flink 漫谈系列(03) - Watermark
实际问题(乱序)在介绍Watermark相关内容之前我们先抛出一个具体的问题,在实际的流式计算中数据到来的顺序对计算结果的正确性有至关重要的影响,比如:某数据源中的某些数据由于某种原因(如:网络原因,外部存储自身原因)会有5秒的延时,也就是在实际时间的第1秒产生的数据有可能在第5秒中产生的数据之后到来(比如到Window处理节点).选具体某个delay的元素来说,假设在一个5秒的Tumble窗...转载 2019-04-23 15:19:17 · 456 阅读 · 0 评论 -
Apache Flink 漫谈系列(09) - JOIN 算子
聊什么在《Apache Flink 漫谈系列 - SQL概览》中我们介绍了JOIN算子的语义和基本的使用方式,介绍过程中大家发现Apache Flink在语法语义上是遵循ANSI-SQL标准的,那么再深思一下传统数据库为啥需要有JOIN算子呢?在实现原理上面Apache Flink内部实现和传统数据库有什么区别呢?本篇将详尽的为大家介绍传统数据库为什么需要JOIN算子,以及JOIN算子在Apa...翻译 2019-04-26 17:00:07 · 483 阅读 · 0 评论 -
别懵逼,用户画像其实是这么回事儿
大数据研习社这个社群运营至今,已有QQ群50+,微信群10+,微信/头条/博客多维度覆盖,触及影响的大数据人群20万+。好学君发现,在大数据领域,大家讨论比较多而且“来钱”最快的领域就是用户画像以及个性化推荐这块儿啦。但很多同学又觉得用户画像特别难“搞”,不好落地而且依赖的技术多资源多。好学君本人对用户画像一直处于懵逼状态,偶尔想装X还心底发虚,直到我看到了下面这份资料。这是来自前阿里推荐算法...原创 2019-04-26 16:54:09 · 560 阅读 · 0 评论 -
Apache Flink 漫谈系列(02) - 概述
Apache Flink 的命脉"命脉" 即生命与血脉,常喻极为重要的事物。系列的首篇,首篇的首段不聊Apache Flink的历史,不聊Apache Flink的架构,不聊Apache Flink的功能特性,我们用一句话聊聊什么是 Apache Flink 的命脉?我的答案是:Apache Flink 是以"批是流的特例"的认知进行系统设计的。唯快不破我们经常听说 "天下武功,唯快不...转载 2019-04-22 15:09:34 · 500 阅读 · 0 评论 -
Apache Flink 漫谈系列(05) - Fault Tolerance
实际问题在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。那么在计算过程中如果网络、机器等原因导致Task运行失败了,Apache Flink会如何处理呢?在 《Apache Flink 漫谈系列 - State》一篇中我们介绍了 Apache Flink 会利用State记录计算的状态,在Failover时候Task会根据...原创 2019-04-24 15:54:38 · 407 阅读 · 0 评论 -
Apache Flink 漫谈系列(06) - 流表对偶(duality)性
实际问题很多大数据计算产品,都对用户提供了SQL API,比如Hive, Spark, Flink等,那么SQL作为传统关系数据库的查询语言,是应用在批查询场景的。Hive和Spark本质上都是Batch的计算模式(在《Apache Flink 漫谈系列 - 概述》我们介绍过Spark是Micro Batching模式),提供SQL API很容易被人理解,但是Flink是纯流(Native S...转载 2019-04-24 16:04:33 · 464 阅读 · 0 评论 -
Apache Flink 漫谈系列(12) - Time Interval(Time-windowed) JOIN
说什么JOIN 算子是数据处理的核心算子,前面我们在《Apache Flink 漫谈系列(09) - JOIN 算子》介绍了UnBounded的双流JOIN,在《Apache Flink 漫谈系列(10) - JOIN LATERAL》介绍了单流与UDTF的JOIN操作,在《Apache Flink 漫谈系列(11) - Temporal Table JOIN》又介绍了单流与版本表的JOIN,...转载 2019-04-29 10:59:35 · 609 阅读 · 0 评论 -
Apache Flink 漫谈系列(07) - 持续查询(Continuous Queries)
实际问题我们知道在流计算场景中,数据是源源不断的流入的,数据流永远不会结束,那么计算就永远不会结束,如果计算永远不会结束的话,那么计算结果何时输出呢?本篇将介绍Apache Flink利用持续查询来对流计算结果进行持续输出的实现原理。数据管理在介绍持续查询之前,我们先看看Apache Flink对数据的管理和传统数据库对数据管理的区别,以MySQL为例,如下图:如上图所示传统数据库...转载 2019-04-25 16:28:01 · 465 阅读 · 0 评论 -
Apache Flink 漫谈系列(08) - SQL概览
SQL简述SQL是Structured Query Language的缩写,最初是由美国计算机科学家Donald D. Chamberlin和Raymond F. Boyce在20世纪70年代早期从Early History of SQL中了解关系模型后在IBM开发的。该版本最初称为[SEQUEL: A Structured English Query Language](结构化英语查询语...转载 2019-04-25 16:32:20 · 396 阅读 · 0 评论 -
Apache Flink 漫谈系列(14) - DataStream Connectors之Kafka
聊什么为了满足本系列读者的需求,在完成《Apache Flink 漫谈系列(14) - DataStream Connectors》之前,我先介绍一下Kafka在Apache Flink中的使用。所以本篇以一个简单的示例,向大家介绍在Apache Flink中如何使用Kafka。Kafka 简介Apache Kafka是一个分布式发布-订阅消息传递系统。 它最初由LinkedIn公司开...原创 2019-04-30 17:46:22 · 3083 阅读 · 0 评论 -
2019云栖大会头版头条 六位大咖提到最多的字眼就是“数据”
当我看到这个结果的时候,我是惊讶的。虽然我坚信数据对未来发展的重要性,但是这么高频次的提及。实属震惊。 很显然,未来已经很明确。未来的经济发展需要大量数字或数据相关的人才,尤其是高级人才。当别人在这个方向几年如一日的坚持努力,越走越高。你还在观望等待,那么当别人拿着年薪百万、甚至几百万的时候,你也只能眼巴巴说句“卧槽,真高”。哪有什么天才?一鸣惊人背后哪个不是...原创 2019-09-26 18:14:37 · 358 阅读 · 0 评论 -
【经典】一个大数据学习的解决方案
从0基础小白到架构师,对于一个没入行的小白来说,想都不敢想,它不仅需要时间的磨炼,开发经验的积累,更需要有合适的机遇与平台。对于大数据技术应用方面,无论是传统行业还是互联网行业,经过这几年的发展已经相当成熟。很多有IT基础的小伙伴冲着大数据薪资高、待遇好、就业前景不错,都争先恐后的加入到大数据技术学习的行列中来,特别是有Java基础的同学,因为Java行业已趋近饱和,薪资干了几年没见涨,职位晋升也...原创 2019-10-03 17:40:08 · 852 阅读 · 0 评论 -
【大数据】年薪百万架构师必备技能
搞Java开发的同学,目标都想成为Java架构师;搞大数据开发的同学,目标都想成为大数据架构师。成为大数据架构师有什么好处呢?归其原因:1.技术上能达到一定的高度,被公司认可,也被社会认可,有成就感;2.待遇好,薪资高,生活质量高;3.随着年龄越大,经验越丰富越值钱,避免IT程序员35岁后失业的焦虑。那么成为大数据架构师,需要具备哪些技能呢?搞Ja...原创 2019-10-03 17:44:42 · 918 阅读 · 0 评论 -
Apache Flink 漫谈系列(01) - 序
Apache Flink 漫谈系列会分享什么呢?本系列分享的核心内容会围绕 Apache Flink的核心特征以及阿里巴巴对Apache Flink功能的丰富和性能、架构的优化进行深入剖析,从系统架构到具体每个算子的语义都会向读者进行细致分享,并且以图文和具体示例的方式讲解具体算子的实现原理。Why闪速成为Apache顶级项目Apache Flink是时代的产物,是当前纯流式计算引擎的...转载 2019-04-22 14:50:21 · 275 阅读 · 0 评论 -
月薪3万+的大数据人都在疯学Flink,为什么?
身处大数据圈近5年了,在我的概念里一直认为大数据最牛的两个东西是Hadoop和Spark。18年下半年的时候,我突然发现身边很多大数据牛人都是研究学习Flink,甚至连Spark都大有被冷落抛弃的感觉。何以至此,Flink是个什么鬼?Apache Flink(简称Flink)是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进...原创 2019-04-04 11:57:37 · 692 阅读 · 0 评论 -
Flink Runtime笔记
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl91. Flink运行时架构1.1Flink架构Flink 运行时架构主要包含几个部分:Client、JobManager(master节点)和TaskManger(sla...原创 2019-03-15 15:34:31 · 1166 阅读 · 0 评论 -
Flink核心概念与编程模型
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl91. Flink分层架构1.1 Flink生态之核心组件栈大家回顾一下Flink生态圈中的核心组件栈即可,前面已经详细讲过,这里就不再赘叙。1.2 Flink分层架构Fl...原创 2019-03-15 15:20:22 · 516 阅读 · 0 评论 -
Flink学习中——DataSream API笔记
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl91.执行计划GraphFlink 通过Stream API (Batch API同理)开发的应用,底层有四层执行计划,我们首先来看Flink的四层执行计划如下图所示。...原创 2019-03-19 18:00:30 · 397 阅读 · 0 评论 -
Flink API 通用基本概念
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl91. 继续侃Flink编程基本套路DataSet and DataStreamDataSet and DataStream表示Flink app中的分布式数据集。它们包含...原创 2019-03-19 17:52:20 · 449 阅读 · 0 评论 -
Flink和spark的对擂详解
流处理的几个流派在流式计算领域,同一套系统需要同时兼具容错和高性能其实非常难,同时它也是衡量和选择一个系统的标准。4.2Flink VS Spark 之 APISpark与Flink API pk如下所示:Spark与Flink 对开发语言的支持如下所示: Flink VS Spark 之 Connectors Spark 支持的Connectors如下...原创 2019-03-14 14:31:12 · 815 阅读 · 0 评论 -
运作中的Flink场景
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9Flink应用场景主要应用场景有三类:1.Event-driven Applications【事件驱动】2.Data Analytics Applications【分析】3....原创 2019-03-14 14:15:10 · 1229 阅读 · 0 评论 -
288所高校开大数据专业,你母校out了吗?
3月15日,教育部下发了2017年度普通高等学校本科专业备案和审批结果的通知,第三批大数据本科专业院校获批。本次新获批高校253所,其中“数据科学与大数据技术”专业248所,“大数据管理与应用”专业5所。 在此之前,16年2月批了3所,17年3月批了32所,目前总共288所院校获批开设大数据相关专业。据说还有几百所院校正在努力申报中。大数据人才需求之紧迫可见一斑。下面是获批院校名单,...转载 2018-04-11 13:23:12 · 3964 阅读 · 0 评论 -
CM+CDH构建企业大数据平台系列(七)
完整视频+图文资料获取及技术答疑请加:大讲台大数据研习社⑦ :695520445 配置静态IP三、配置静态IP 1、为什么要配置静态IP? 在实际应用中,默认我们使用的是DHCP(动态主机分配协议)来分配地址的,那么ip地址有可能是会变动的。 而我们用Linux来搭建集...原创 2018-03-19 10:45:05 · 729 阅读 · 0 评论 -
idea 导入Kafka 源码
一、gradle安装1、 安装jdk1.1 需要安装jdk1.5以上才能运行gradle1.2 验证jdk是否安装成功 java –version1.3 设置JAVA_HOME环境变量2、 下载gradle地址:http://services.gradle.org/distributions/3、 解压gradle-3.5-bin.zip4、 设置GRADLE_HOME环境变量5、 验...原创 2018-03-16 11:45:16 · 5441 阅读 · 2 评论 -
Flink学习笔记Operators串烧
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9DataStream Transformation1.1 DataStream转换关系上图标识了DataStream不同形态直接的转换关系,也可以看出DataStream主...原创 2019-03-20 17:21:37 · 562 阅读 · 0 评论 -
Flink项目中Window那些事
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9啥是Window?有啥作用?Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批处理。而窗口(wind...原创 2019-03-20 17:29:07 · 1151 阅读 · 0 评论 -
Flink学习笔记:异步I/O访问外部数据
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9Aysnc I/O1.1Aysnc I/O是啥?Async I/O 是阿里巴巴贡献给社区的一个呼声非常高的特性,于1.2版本引入。主要目的:是为了解决与外部系统交互时...原创 2019-03-22 16:14:11 · 3090 阅读 · 0 评论 -
Flink学习笔记:Operators之Process Function
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9Process Function1.1分层APIFlink提供三层API. 每个API在简洁性和表达之间提供不同的权衡,并针对不同的用例1.SQL/Table API (dyna...原创 2019-03-22 16:08:40 · 5929 阅读 · 0 评论 -
Flink部署模式
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9Local 本地部署Flink 可以运行在 Linux、Mac OS X 和 Windows 上。本地模式的安装唯一需要的只是 Java 1.7.x或更高版本,本地运行会启...原创 2019-03-18 16:53:00 · 888 阅读 · 0 评论 -
Flink学习笔记:Connectors之kafka
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl91. Kafka-connector概述及FlinkKafkaConsumer(kafka source)1.1回顾kafka1.最初由Linkedin 开发的分布式消息中间件...原创 2019-03-25 14:53:30 · 4751 阅读 · 0 评论 -
Flink随堂笔记:Connectors概述
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl91. 各种Connector1.1Connector是什么鬼Connectors是数据进出Flink的一套接口和实现,可以实现Flink与各种存储、系统的连接注意:数据进出Fli...原创 2019-03-25 14:43:47 · 768 阅读 · 0 评论 -
大数据舞台中的Flink
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl92014 年 Flink 作为主攻流计算的大数据引擎开始在开源大数据行业内崭露头角。区别于 Storm、Spark Streaming 以及其他流式计算引擎的是:它不仅是一个高吞吐、低...原创 2019-03-13 15:16:36 · 1228 阅读 · 0 评论 -
flink随手笔记之Slot分配与共享
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9共享Slot默认情况下,Flink 允许subtasks共享slot,条件是它们都来自同一个Job的不同task的subtask。结果可能一个slot持有该job的整个p...原创 2019-03-18 16:02:19 · 16501 阅读 · 4 评论 -
Flink项目学习笔记之——Operators之CoGroup及Join操作
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9Window CoGroup与Join1.1回顾RDBMS各种join假设有两个表A和B1.CROSS JOIN(AB的笛卡尔积/交叉联接)省略写法为join,由...原创 2019-03-21 17:55:37 · 907 阅读 · 0 评论