开发工具
大数据研习社
「大数据研习社」号主,实战大数据(Hadoop+Spark+Flink)作者,从Java开发到大数据开发13年。微信:dashuju_2017,加好友备注CSDN。
展开
-
超级实用的MyEclipse中的快捷键大全
Eclipse的编辑功能非常强大,掌握了Eclipse快捷键功能,能够大大提高开发效率。Eclipse中有如下一些和编辑相关的快捷键。 1. 【ALT+/】 此快捷键为用户编辑的好帮手,能为用户提供内容的辅助,不要为记不全方法和属性名称犯愁,当记不全类、方法和属性的名字时,多体验一下【ALT+/】快捷键带来的好处吧。 2. 【Ctrl+O】 显示类中方法和属性的大纲,能快速定转载 2017-03-27 16:54:17 · 2541 阅读 · 3 评论 -
月薪3万+的大数据人都在疯学Flink,为什么?
身处大数据圈近5年了,在我的概念里一直认为大数据最牛的两个东西是Hadoop和Spark。18年下半年的时候,我突然发现身边很多大数据牛人都是研究学习Flink,甚至连Spark都大有被冷落抛弃的感觉。何以至此,Flink是个什么鬼?Apache Flink(简称Flink)是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进...原创 2019-04-04 11:57:37 · 692 阅读 · 0 评论 -
Apache Flink 漫谈系列(02) - 概述
Apache Flink 的命脉"命脉" 即生命与血脉,常喻极为重要的事物。系列的首篇,首篇的首段不聊Apache Flink的历史,不聊Apache Flink的架构,不聊Apache Flink的功能特性,我们用一句话聊聊什么是 Apache Flink 的命脉?我的答案是:Apache Flink 是以"批是流的特例"的认知进行系统设计的。唯快不破我们经常听说 "天下武功,唯快不...转载 2019-04-22 15:09:34 · 500 阅读 · 0 评论 -
别懵逼,用户画像其实是这么回事儿
大数据研习社这个社群运营至今,已有QQ群50+,微信群10+,微信/头条/博客多维度覆盖,触及影响的大数据人群20万+。好学君发现,在大数据领域,大家讨论比较多而且“来钱”最快的领域就是用户画像以及个性化推荐这块儿啦。但很多同学又觉得用户画像特别难“搞”,不好落地而且依赖的技术多资源多。好学君本人对用户画像一直处于懵逼状态,偶尔想装X还心底发虚,直到我看到了下面这份资料。这是来自前阿里推荐算法...原创 2019-04-26 16:54:09 · 560 阅读 · 0 评论 -
Apache Flink 漫谈系列(09) - JOIN 算子
聊什么在《Apache Flink 漫谈系列 - SQL概览》中我们介绍了JOIN算子的语义和基本的使用方式,介绍过程中大家发现Apache Flink在语法语义上是遵循ANSI-SQL标准的,那么再深思一下传统数据库为啥需要有JOIN算子呢?在实现原理上面Apache Flink内部实现和传统数据库有什么区别呢?本篇将详尽的为大家介绍传统数据库为什么需要JOIN算子,以及JOIN算子在Apa...翻译 2019-04-26 17:00:07 · 483 阅读 · 0 评论 -
Apache Flink 漫谈系列(03) - Watermark
实际问题(乱序)在介绍Watermark相关内容之前我们先抛出一个具体的问题,在实际的流式计算中数据到来的顺序对计算结果的正确性有至关重要的影响,比如:某数据源中的某些数据由于某种原因(如:网络原因,外部存储自身原因)会有5秒的延时,也就是在实际时间的第1秒产生的数据有可能在第5秒中产生的数据之后到来(比如到Window处理节点).选具体某个delay的元素来说,假设在一个5秒的Tumble窗...转载 2019-04-23 15:19:17 · 455 阅读 · 0 评论 -
Apache Flink 漫谈系列(04) - State
实际问题在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重新新计算一次,还是每次计算都是在上一次计算结果之上进行增量计算呢?答案是肯定的,Apache Flink是基于上一次的计算结果进行增量计算的。那么问题来了: "上一次的计算结果保存在哪里,...转载 2019-04-23 15:32:42 · 711 阅读 · 0 评论 -
Apache Flink 漫谈系列(10) - JOIN LATERAL
聊什么上一篇《Apache Flink 漫谈系列 - JOIN算子》我们对最常见的JOIN做了详尽的分析,本篇介绍一个特殊的JOIN,那就是JOIN LATERAL。JOIN LATERAL为什么特殊呢,直观说因为JOIN的右边不是一个实际的物理表,而是一个VIEW或者Table-valued Funciton。如下图所示:本篇会先介绍传统数据库对LATERAL JOIN的支持,然后介...转载 2019-04-28 17:04:27 · 4160 阅读 · 2 评论 -
Apache Flink 漫谈系列(11) - Temporal Table JOIN
什么是Temporal Table在《Apache Flink 漫谈系列 - JOIN LATERAL》中提到了Temporal Table JOIN,本篇就向大家详细介绍什么是Temporal Table JOIN。在ANSI-SQL 2011中提出了Temporal 的概念,Oracle,SQLServer,DB2等大的数据库厂商也先后实现了这个标准。Temporal Table记录了...转载 2019-04-28 17:06:49 · 1273 阅读 · 0 评论 -
Apache Flink 漫谈系列(05) - Fault Tolerance
实际问题在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。那么在计算过程中如果网络、机器等原因导致Task运行失败了,Apache Flink会如何处理呢?在 《Apache Flink 漫谈系列 - State》一篇中我们介绍了 Apache Flink 会利用State记录计算的状态,在Failover时候Task会根据...原创 2019-04-24 15:54:38 · 406 阅读 · 0 评论 -
Apache Flink 漫谈系列(06) - 流表对偶(duality)性
实际问题很多大数据计算产品,都对用户提供了SQL API,比如Hive, Spark, Flink等,那么SQL作为传统关系数据库的查询语言,是应用在批查询场景的。Hive和Spark本质上都是Batch的计算模式(在《Apache Flink 漫谈系列 - 概述》我们介绍过Spark是Micro Batching模式),提供SQL API很容易被人理解,但是Flink是纯流(Native S...转载 2019-04-24 16:04:33 · 464 阅读 · 0 评论 -
Apache Flink 漫谈系列(12) - Time Interval(Time-windowed) JOIN
说什么JOIN 算子是数据处理的核心算子,前面我们在《Apache Flink 漫谈系列(09) - JOIN 算子》介绍了UnBounded的双流JOIN,在《Apache Flink 漫谈系列(10) - JOIN LATERAL》介绍了单流与UDTF的JOIN操作,在《Apache Flink 漫谈系列(11) - Temporal Table JOIN》又介绍了单流与版本表的JOIN,...转载 2019-04-29 10:59:35 · 609 阅读 · 0 评论 -
Apache Flink 漫谈系列(13) - Table API 概述
什么是Table API在《Apache Flink 漫谈系列(08) - SQL概览》中我们概要的向大家介绍了什么是好SQL,SQL和Table API是Apache Flink中的同一层次的API抽象,如下图所示:Apache Flink 针对不同的用户场景提供了三层用户API,最下层ProcessFunction API可以对State,Timer等复杂机制进行有效的控制,但用户使用...转载 2019-04-29 11:01:49 · 415 阅读 · 0 评论 -
Apache Flink 漫谈系列(07) - 持续查询(Continuous Queries)
实际问题我们知道在流计算场景中,数据是源源不断的流入的,数据流永远不会结束,那么计算就永远不会结束,如果计算永远不会结束的话,那么计算结果何时输出呢?本篇将介绍Apache Flink利用持续查询来对流计算结果进行持续输出的实现原理。数据管理在介绍持续查询之前,我们先看看Apache Flink对数据的管理和传统数据库对数据管理的区别,以MySQL为例,如下图:如上图所示传统数据库...转载 2019-04-25 16:28:01 · 465 阅读 · 0 评论 -
Flink学习笔记:异步I/O访问外部数据
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9Aysnc I/O1.1Aysnc I/O是啥?Async I/O 是阿里巴巴贡献给社区的一个呼声非常高的特性,于1.2版本引入。主要目的:是为了解决与外部系统交互时...原创 2019-03-22 16:14:11 · 3090 阅读 · 0 评论 -
Flink学习笔记:Operators之Process Function
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9Process Function1.1分层APIFlink提供三层API. 每个API在简洁性和表达之间提供不同的权衡,并针对不同的用例1.SQL/Table API (dyna...原创 2019-03-22 16:08:40 · 5929 阅读 · 0 评论 -
如何设置在eclipse/myeclipse中查看Hadoop源码
1、 比如我要查看如下代码中Mapper的源码2、 我需要选中Mapper类,然后按住“Ctrl”并点击该类即可。3、 如果没有在该Workspace中导入过hadoop源码,则会看到如下结果。4、那么怎么在该Workspace中导入hadoop源码,实现在eclipse/myeclipse中正常查看hadoop源码呢?(1)首先下载hadoop源码包1)在浏览器输入http://hadoop.a...原创 2018-07-13 15:02:13 · 2130 阅读 · 0 评论 -
运作中的Flink场景
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9Flink应用场景主要应用场景有三类:1.Event-driven Applications【事件驱动】2.Data Analytics Applications【分析】3....原创 2019-03-14 14:15:10 · 1226 阅读 · 0 评论 -
Flink和spark的对擂详解
流处理的几个流派在流式计算领域,同一套系统需要同时兼具容错和高性能其实非常难,同时它也是衡量和选择一个系统的标准。4.2Flink VS Spark 之 APISpark与Flink API pk如下所示:Spark与Flink 对开发语言的支持如下所示: Flink VS Spark 之 Connectors Spark 支持的Connectors如下...原创 2019-03-14 14:31:12 · 815 阅读 · 0 评论 -
Flink学习中——DataSream API笔记
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl91.执行计划GraphFlink 通过Stream API (Batch API同理)开发的应用,底层有四层执行计划,我们首先来看Flink的四层执行计划如下图所示。...原创 2019-03-19 18:00:30 · 397 阅读 · 0 评论 -
Flink API 通用基本概念
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl91. 继续侃Flink编程基本套路DataSet and DataStreamDataSet and DataStream表示Flink app中的分布式数据集。它们包含...原创 2019-03-19 17:52:20 · 449 阅读 · 0 评论 -
Flink核心概念与编程模型
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl91. Flink分层架构1.1 Flink生态之核心组件栈大家回顾一下Flink生态圈中的核心组件栈即可,前面已经详细讲过,这里就不再赘叙。1.2 Flink分层架构Fl...原创 2019-03-15 15:20:22 · 516 阅读 · 0 评论 -
Flink Runtime笔记
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl91. Flink运行时架构1.1Flink架构Flink 运行时架构主要包含几个部分:Client、JobManager(master节点)和TaskManger(sla...原创 2019-03-15 15:34:31 · 1166 阅读 · 0 评论 -
Flink项目中Window那些事
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9啥是Window?有啥作用?Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批处理。而窗口(wind...原创 2019-03-20 17:29:07 · 1150 阅读 · 0 评论 -
Flink项目学习笔记之——Operators之CoGroup及Join操作
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9Window CoGroup与Join1.1回顾RDBMS各种join假设有两个表A和B1.CROSS JOIN(AB的笛卡尔积/交叉联接)省略写法为join,由...原创 2019-03-21 17:55:37 · 903 阅读 · 0 评论 -
大数据舞台中的Flink
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl92014 年 Flink 作为主攻流计算的大数据引擎开始在开源大数据行业内崭露头角。区别于 Storm、Spark Streaming 以及其他流式计算引擎的是:它不仅是一个高吞吐、低...原创 2019-03-13 15:16:36 · 1228 阅读 · 0 评论 -
Flink随堂笔记:Connectors概述
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl91. 各种Connector1.1Connector是什么鬼Connectors是数据进出Flink的一套接口和实现,可以实现Flink与各种存储、系统的连接注意:数据进出Fli...原创 2019-03-25 14:43:47 · 768 阅读 · 0 评论 -
Flink学习笔记:Connectors之kafka
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl91. Kafka-connector概述及FlinkKafkaConsumer(kafka source)1.1回顾kafka1.最初由Linkedin 开发的分布式消息中间件...原创 2019-03-25 14:53:30 · 4751 阅读 · 0 评论 -
Flink部署模式
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9Local 本地部署Flink 可以运行在 Linux、Mac OS X 和 Windows 上。本地模式的安装唯一需要的只是 Java 1.7.x或更高版本,本地运行会启...原创 2019-03-18 16:53:00 · 888 阅读 · 0 评论 -
Apache Flink 漫谈系列(14) - DataStream Connectors之Kafka
聊什么为了满足本系列读者的需求,在完成《Apache Flink 漫谈系列(14) - DataStream Connectors》之前,我先介绍一下Kafka在Apache Flink中的使用。所以本篇以一个简单的示例,向大家介绍在Apache Flink中如何使用Kafka。Kafka 简介Apache Kafka是一个分布式发布-订阅消息传递系统。 它最初由LinkedIn公司开...原创 2019-04-30 17:46:22 · 3083 阅读 · 0 评论