- 博客(13)
- 资源 (6)
- 收藏
- 关注
原创 Spark 2.4 新特性和PPT
即将发布的 Apache Spark 2.4 版本是 2.x 系列的第五个版本。 本文对 Apache Spark 2.4 的主要功能和增强功能进行了概述。新的调度模型(Barrier Scheduling),使用户能够将分布式深度学习训练恰当地嵌入到 Spark 的 stage 中,以简化分布式训练工作流程。 添加了35个高阶函数,用于在 Spark SQL 中操作数组/map。 新...
2018-09-21 10:20:11 3353
原创 Intellij idea 创建Maven Spark工程
目录背景正文创建Maven工程打包过程添加SCALA支持 背景 Intellij idea开发Spark工程,本地依赖使用Maven进行管理,打包也是用Maven命令,依赖包需要和编译后的源代码同时包含到结果Jar包中。 正文创建Maven工程截图如下,就是用原生的Maven工程,不要选择下面其他的,scala和Java...
2018-09-19 17:23:16 3215
转载 Flink onTime - processFunction
转载作者:写bug的张小天转载地址:https://www.jianshu.com/p/e6297fac67cbProcess Function(过程函数)ProcessFunction是一个低层次的流处理操作,允许返回所有(无环的)流程序的基础构建模块: 1、事件(event)(流元素) 2、状态(state)(容错性,一致性,仅在keyed stream中) 3、定时器...
2018-09-17 20:10:58 2774
原创 Flink 异常处理-State和Checkpoint实践
目录目录背景正文 State什么是State(状态)?State类型State理解State实战CheckPointing(1)介绍,实现方式分类(2) 使用Manage State,Flink自动实现state保存和恢复(3) 自定义state 自行实现实现checkpoint接口借鉴文章 背景 ...
2018-09-15 10:50:35 7010 1
转载 FLink - 流式处理框架选型对比
转载原文:https://blog.csdn.net/lmalds/article/details/525395901、需求决定引擎选型根据马斯洛需求层次理论,可以将流处理引擎的需求分为以下几种层次: 1、持续性的流处理 2、低延迟的计算结果,亚秒级别的延迟 3、高效可扩展性,每秒百万级的吞吐量 4、容错性,即失败时的可恢复性 5、精确的可重复性 6、可查询性流处理就是在...
2018-09-13 09:37:38 2387
原创 IntelliJ IDEA中文乱码问题汇总
1.首先是编辑器的乱码,这个很好解决,file->settings->appearence里面有个Name设置成支持中文的字 体(这个很重要)同样还要再settings中的Eidtor->File Encodings里面设置字体编码格式,一般都是UTF-8,GBK什么的也行。2.日志打印console乱码问题使用Intellij idea 使用log4j 中i...
2018-09-12 18:18:26 1169
转载 FLink 优秀的session windows使用案例-Spotify音乐推荐分析
转载原文:https://blog.csdn.net/lmalds/article/details/69267056转载作者:malds李麦迪很棒的文章,博主博文都很好,值得浏览正文1、简介流处理在实际生产中体现的价值越来越大,Apache Flink这个纯流式计算框架也正在被越来越多的公司所关注并尝试使用其流上的功能。在2017年波兰华沙大数据峰会上,有一家叫做GetIn...
2018-09-08 16:55:03 1640
原创 Flink WaterMark(水位线)分布式执行理解
背景 WaterMark (水印) 本质上是一个时间戳。当Flink中的运算符接收到水印时,它明白(假设)它不会看到比该时间戳更早的消息。因此,在“EventTime”中,水印也可以被认为是一种告诉Flink它有多远的一种方式,WaterMark还可以用来实现时间延迟。 本文主要涉及水印在单线程和分布式情况下的理解,基础知识和应用请看:Flink watermar...
2018-09-08 15:49:44 14642 5
原创 Flink 窗口开始结束时间与设置不符问题
问题:1. 在WindowsFunction中,获取窗口开始和结束时间与预设不符2. WindowsFunction函数不触发执行可能原因:1.时间格式问题: 错误:1536137348 正确:15361373480002.WindowsFunction中无返回值,导致函数无法结束...
2018-09-05 19:25:26 2248
转载 Flink Session Windows编程实战
原文地址:https://blog.csdn.net/lmalds/article/details/52692911正文1、session window简介Flink从1.1开始支持Session window,它是属于基于时间的窗口。这里以EventTime为例,基于时间的窗口,可以分为3种:TumblingEventTimeWindows,SlidingEventTimeWin...
2018-09-05 09:23:53 1722
原创 Flink 编程实战 - 构建程序框架
背景 Flink文档中介绍窗口、水印和触发器等功能偏理论,浏览之后对编程方式懵懵懂懂,故作如下练习,是一个基础Flink编程框架,并不是所有Flink程序都如下程序框架所述。 理解如下代码,需要正确理解Event Time和Watermark,可以浏览《Flink Event Time和WaterMark结合优势分析》 博文和《Flink Windo...
2018-09-03 08:54:04 1249
转载 Flink Event Time和WaterMark结合优势分析
背景对Event Time和WaterMark理解存在困惑,转载一篇很棒的文章。转载原文:http://vishnuviswanath.com/flink_eventtime.html翻译原文:https://blog.csdn.net/a6822342/article/details/78064815使用ProcessTime会导致延时到达的消息无法分配进入正确的窗口,使用 Ev...
2018-09-03 08:53:13 3873 2
转载 Flink Windows窗口简介和使用
转载原文:https://blog.csdn.net/lmalds/article/details/51604501Apache Flink–DataStream–Window什么是Window?有哪些用途? 下面我们结合一个现实的例子来说明。我们先提出一个问题:统计经过某红绿灯的汽车数量之和? 假设在一个红绿灯处,我们每隔15秒统计一次通过此红绿灯的汽车数量,如下图: 可以把...
2018-09-03 08:52:42 16010 5
小实践3-测试数据 - 用户行为数据-user.json/log.json
2018-04-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人