自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (6)
  • 收藏
  • 关注

原创 Spark 2.4 新特性和PPT

即将发布的 Apache Spark 2.4 版本是 2.x 系列的第五个版本。 本文对 Apache Spark 2.4 的主要功能和增强功能进行了概述。新的调度模型(Barrier Scheduling),使用户能够将分布式深度学习训练恰当地嵌入到 Spark 的 stage 中,以简化分布式训练工作流程。 添加了35个高阶函数,用于在 Spark SQL 中操作数组/map。 新...

2018-09-21 10:20:11 3353

原创 Intellij idea 创建Maven Spark工程

目录背景正文创建Maven工程打包过程添加SCALA支持  背景             Intellij idea开发Spark工程,本地依赖使用Maven进行管理,打包也是用Maven命令,依赖包需要和编译后的源代码同时包含到结果Jar包中。 正文创建Maven工程截图如下,就是用原生的Maven工程,不要选择下面其他的,scala和Java...

2018-09-19 17:23:16 3215

转载 Flink onTime - processFunction

转载作者:写bug的张小天转载地址:https://www.jianshu.com/p/e6297fac67cbProcess Function(过程函数)ProcessFunction是一个低层次的流处理操作,允许返回所有(无环的)流程序的基础构建模块:  1、事件(event)(流元素)  2、状态(state)(容错性,一致性,仅在keyed stream中)  3、定时器...

2018-09-17 20:10:58 2774

原创 Flink 异常处理-State和Checkpoint实践

目录目录背景正文         State什么是State(状态)?State类型State理解State实战CheckPointing(1)介绍,实现方式分类(2) 使用Manage State,Flink自动实现state保存和恢复(3) 自定义state 自行实现实现checkpoint接口借鉴文章 背景           ...

2018-09-15 10:50:35 7010 1

转载 FLink - 流式处理框架选型对比

转载原文:https://blog.csdn.net/lmalds/article/details/525395901、需求决定引擎选型根据马斯洛需求层次理论,可以将流处理引擎的需求分为以下几种层次: 1、持续性的流处理 2、低延迟的计算结果,亚秒级别的延迟 3、高效可扩展性,每秒百万级的吞吐量 4、容错性,即失败时的可恢复性 5、精确的可重复性 6、可查询性流处理就是在...

2018-09-13 09:37:38 2387

原创 IntelliJ IDEA中文乱码问题汇总

1.首先是编辑器的乱码,这个很好解决,file->settings->appearence里面有个Name设置成支持中文的字 体(这个很重要)同样还要再settings中的Eidtor->File Encodings里面设置字体编码格式,一般都是UTF-8,GBK什么的也行。2.日志打印console乱码问题使用Intellij idea 使用log4j 中i...

2018-09-12 18:18:26 1169

转载 FLink 优秀的session windows使用案例-Spotify音乐推荐分析

转载原文:https://blog.csdn.net/lmalds/article/details/69267056转载作者:malds李麦迪很棒的文章,博主博文都很好,值得浏览正文1、简介流处理在实际生产中体现的价值越来越大,Apache Flink这个纯流式计算框架也正在被越来越多的公司所关注并尝试使用其流上的功能。在2017年波兰华沙大数据峰会上,有一家叫做GetIn...

2018-09-08 16:55:03 1640

原创 Flink WaterMark(水位线)分布式执行理解

背景        WaterMark (水印) 本质上是一个时间戳。当Flink中的运算符接收到水印时,它明白(假设)它不会看到比该时间戳更早的消息。因此,在“EventTime”中,水印也可以被认为是一种告诉Flink它有多远的一种方式,WaterMark还可以用来实现时间延迟。       本文主要涉及水印在单线程和分布式情况下的理解,基础知识和应用请看:Flink watermar...

2018-09-08 15:49:44 14642 5

原创 Flink 窗口开始结束时间与设置不符问题

问题:1. 在WindowsFunction中,获取窗口开始和结束时间与预设不符2. WindowsFunction函数不触发执行可能原因:1.时间格式问题:    错误:1536137348    正确:15361373480002.WindowsFunction中无返回值,导致函数无法结束...

2018-09-05 19:25:26 2248

转载 Flink Session Windows编程实战

原文地址:https://blog.csdn.net/lmalds/article/details/52692911正文1、session window简介Flink从1.1开始支持Session window,它是属于基于时间的窗口。这里以EventTime为例,基于时间的窗口,可以分为3种:TumblingEventTimeWindows,SlidingEventTimeWin...

2018-09-05 09:23:53 1722

原创 Flink 编程实战 - 构建程序框架

 背景          Flink文档中介绍窗口、水印和触发器等功能偏理论,浏览之后对编程方式懵懵懂懂,故作如下练习,是一个基础Flink编程框架,并不是所有Flink程序都如下程序框架所述。         理解如下代码,需要正确理解Event Time和Watermark,可以浏览《Flink Event Time和WaterMark结合优势分析》 博文和《Flink Windo...

2018-09-03 08:54:04 1249

转载 Flink Event Time和WaterMark结合优势分析

背景对Event Time和WaterMark理解存在困惑,转载一篇很棒的文章。转载原文:http://vishnuviswanath.com/flink_eventtime.html翻译原文:https://blog.csdn.net/a6822342/article/details/78064815使用ProcessTime会导致延时到达的消息无法分配进入正确的窗口,使用 Ev...

2018-09-03 08:53:13 3873 2

转载 Flink Windows窗口简介和使用

转载原文:https://blog.csdn.net/lmalds/article/details/51604501Apache Flink–DataStream–Window什么是Window?有哪些用途? 下面我们结合一个现实的例子来说明。我们先提出一个问题:统计经过某红绿灯的汽车数量之和? 假设在一个红绿灯处,我们每隔15秒统计一次通过此红绿灯的汽车数量,如下图:  可以把...

2018-09-03 08:52:42 16010 5

Spark-2-4-PDF

spark2.4官方介绍PPT,PDF版本,没有大的变化,sql api增加和新的调度模型

2018-09-21

手机基站数据Demo

手机基站数据,用于练习spark 实践,已经测试过,手机基站数据,用于练习spark 实践,已经测试过

2018-05-20

spark - 小实践(2)-- 模拟数据

spark - 小实践(2)dataset实战测试数据 people.json peopleScore.json

2018-04-11

小实践3-测试数据 - 用户行为数据-user.json/log.json

user.json log.json userparquet.parquet logparquet.parquet

2018-04-11

spring-jdbc-2.5.6.jar

可用,本人亲测,应该不会出现确实什么东西的现象

2015-05-02

commons-dbcp-1.2

本人亲测可用,如果,在开发过程中遇到了什么问题,可以联系我

2015-05-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除