flink
文章平均质量分 92
马斯特杨
这个作者很懒,什么都没留下…
展开
-
Flink第一章:开发环境搭建和应用的配置、部署及运行
一、Flink 开发环境部署和配置Flink 是一个以 Java 及 Scala 作为开发语言的开源大数据项目,代码开源在 GitHub 上,并使用 Maven 来编译和构建项目。Java、Maven 和 Git 这三个工具是必不可少的,另外一个强大的 IDE 有助于我们更快的阅读代码、开发新功能以及修复 Bug。环境:centos7.6,maven 3.6.1,flink1.10安装...原创 2020-04-28 20:45:11 · 995 阅读 · 1 评论 -
记录一次FLink 背压过大问题处理过程
最近flink job出现了背压的问题, 后果是导致了checkpoint的生成超时, 影响了flink job的运行.定位问题:如下图:1) flink的checkpoint生成超时, 失败:checkpoint超时2) 查看jobmanager日志,定位问题:jobmanager日志3) 找大神帮忙定位问题, 原来是出现了背压的问题, 缓冲区的数据处理不过来,barrier流动慢,导致checkpoint生成时间长, 出现超时的现象. (check...原创 2021-01-21 16:19:07 · 1425 阅读 · 0 评论 -
Flink run 参数解释
1 Flink的前世今生(生态很重要)很多人可能都是在 2015 年才听到 Flink 这个词,其实早在 2008 年,Flink 的前身已经是柏林理工大学一个研究性项目, 在 2014 被 Apache 孵化器所接受,然后迅速地成为了 ASF(Apache Software Foundation)的顶级项目之一。 Apache Flink is an open source platform for distributed stream and batch data process原创 2020-06-05 10:58:35 · 16978 阅读 · 1 评论 -
Flink在海量消息推送实时统计场景的应用
消息推送常常在APP运营过程中,作为提高活跃,增加用户粘性的利器被广泛使用。产运的同学更希望可以看到每场推送活动后的实际统计数据。例如推送的时效性,渠道的推送成功率,到达率和用户的点击率。对于海量推送数据的统计与查询也面临着不小的挑战,本文主要对Flink实时计算技术在海量推送消息实时统计场景进行介绍原创 2020-05-30 08:59:50 · 1053 阅读 · 0 评论 -
基于Flink 的实时 精准去重方法总结
去重计算是数据分析业务里面常见的指标计算,例如网站一天的访问用户数、广告的点击用户数等等,离线计算是一个全量、一次性计算的过程通常可以通过 distinct 的方式得到去重结果,而实时计算是一种增量、长期计算过程,我们在面对不同的场景,例如数据量的大小、计算结果精准度要求等可以使用不同的方案。本篇将会基于 Flink 讲解不同的实现方案:MapState 方式去重 SQL 方式去重 HyperLogLog 方式去重 Bitmap 精确去重下面将以一个实际场景为例:计算每个广告每小时的点击用户数,原创 2020-05-30 08:39:33 · 3158 阅读 · 0 评论 -
Flink 1.10.1与 hive 2.1.*版本Catalog整合方案与事件时间使用案例
Flink 1.10 版本相对与1.9版本 在Hive支持方面做了很大的改进,Flink可以通过hiveCatalog 直接使用hive的元数据,在实际业务场景中我们可以很方便的使用FlinkSQL操作hive数据库数据。本文讲解了sql-client和idea测试环境中使用hiveCatalog进行计算。原创 2020-05-30 01:31:34 · 991 阅读 · 0 评论 -
FLINK SQL 1.10版本实践过程中踩过的坑
FLINK SQL 1.10版本实践过程中踩过的坑1.TO_TIMESTAMP时间戳类型转换问题1.TO_TIMESTAMP时间戳类型转换问题上图是来自阿里巴巴FlinkSQL开发手册 ,案例中TO_TIMESTAMP可以将13位bigint类型的UNIX时间戳 转换成 TIMESTAMP的日期类型 2017-09-15T00:00 这种形式。实际操作过程中会出现报错:Flink SQL> select TO_TIMESTAMP(1513135677000);[ERROR] Could原创 2020-05-30 01:13:48 · 6804 阅读 · 1 评论 -
Flink 1.10消费kafka topic 设置偏移量的几种方式
所以必须配置group.id参数从消费者组提交的偏移量开始读取分区(kafka或zookeeper中)。如果找不到分区的偏移量,auto.offset.reset将使用属性中的设置。如果是默认行为(setStartFromGroupOffsets),那么任务从检查点重启,按照重启前的offset进行消费,如果直接重启不从检查点重启并且group.id不变,程序会按照上次提交的offset的位置继续消费。如果group.id改变了,则程序按照auto.offset.reset设置的属性进行消费。但是如果程序带原创 2020-05-29 21:25:57 · 4066 阅读 · 0 评论 -
Flink SQL-Client 的使用
flink sql client 介绍The SQL Client aims to provide an easy way of writing, debugging, and submitting table programs to a Flink cluster without a single line of Java or Scala code. The SQL Client CLI allows for retrieving and visualizing real-time results原创 2020-05-11 01:56:03 · 2499 阅读 · 0 评论 -
Flink第二章:FlinkSQL测试demo
准备Flink:1.8.1hadoop:2.6.7+zookeeper: 3.4.5kafka:2.x1.下载代码:git clone https://github.com/DTStack/flinkStreamSQL.git2.修复代码的依赖[a].com.aiweiergou.tool.logger.api.ChangeLogLevelProcess;下载jar包,放到l...原创 2020-04-30 15:59:11 · 1216 阅读 · 0 评论