fragrans
大数据、产品、运营
展开
-
Flink-SQL管理工具flink-streaming-platform-web部署
根据下列文章,即可成功启动,这里偷懒直接参考下面这篇就好https://blog.csdn.net/xinxin6193/article/details/112347736原创 2021-02-09 22:36:53 · 3276 阅读 · 1 评论 -
自定义fink source
自定义fink source和sink原创 2024-04-25 15:57:00 · 234 阅读 · 1 评论 -
自定义sink
自定义flink sink原创 2024-04-25 15:41:54 · 150 阅读 · 3 评论 -
Flink sql计算 PV和UV的几种实现方案对比
1. 基于cumulateFlink SQL知其所以然:大家都用 Cumulate Window 计算累计指标啦-51CTO.COM2. sink使用upsert方式flink sql实时计算当天pv写入mysql_大数据技术与应用实战的博客-CSDN博客_flink sql 实时统计flink写入 mysql_flink sql实时计算当天pv写入mysql_连役的博客-CSDN博客3. 提前输出或者二次聚合Flink实践:使用FlinkSQL定时输出计算结果 - 代码先锋网..转载 2022-03-19 21:05:33 · 1461 阅读 · 0 评论 -
Flink高效去重
以上内容来自学习资料《五分钟大数据》公众号,感谢知识分享原创 2022-02-25 21:55:53 · 984 阅读 · 0 评论 -
Flink中热点key解决方法
flink热点key数据倾斜解决方案转载 2022-02-25 20:49:09 · 1054 阅读 · 0 评论 -
Flink on yarn模式部署
目录1. 基于docker部署cdh2. 遇到的异常2.1 flink下缺少hadoop相关依赖2.2 jdk7造成的错误3. 启动flink on yarn模式1. 基于docker部署cdh基于Docker搭建CDH单机单节点集群_litlit023的专栏-CSDN博客2. 遇到的异常2.1 flink下缺少hadoop相关依赖基于docker 部署cdn后,启动flink on yarn模式,报了以下错误./bin/yarn-session.sh -n原创 2022-02-02 15:45:32 · 2970 阅读 · 0 评论 -
Flink 可视化开发平台--Streamx部署
目录1. 下载streamx安装包2. 数据库准备3. 启动streamx4. 参考资料1. 下载streamx安装包Release v1.2.0 release · streamxhub/streamx · GitHub上传服务器/work/flink/streamx_dir并解压tar -zxvf streamx-console-service-1.2.1-bin.tar.gz2. 数据库准备cd /work/flink/streamx_dir/strea原创 2022-01-24 21:19:59 · 4732 阅读 · 0 评论 -
Flink sql join的4种不同类型
1. UnBounded的双流JOIN:https://developer.aliyun.com/article/672760?spm=a2c6h.13262185.0.0.6c007e186Tt5n2. 单流与UDTF的JOIN操作:https://developer.aliyun.com/article/674345?spm=a2c6h.12873639.0.0.47903da5UARE9V3. 单流与版本表的JOIN:https://developer.aliyun.com/转载 2022-01-23 17:20:45 · 1786 阅读 · 1 评论 -
Flink join 不同join案例介绍和总结
类似与普通的两张表关联,当左右表任何一张表有数据变化时,最终关联的结果会进行更新,如这篇文章里面的示例图:SELECT id, price, name FROM Price_Table ALeft Outer JOIN Name_Table BON A.id = B.id①–⑥号输入数据,代表随时间增加,按顺序输入事件到左、右侧流。①–⑥号输入数据,可以对应到最右侧Join后输出数据,-号代表回撤,+号代表最新数据输入数据会更新左、右侧状态数据(内部一般都是MapState实现,如..转载 2022-01-23 13:35:03 · 749 阅读 · 0 评论 -
Flink Sql中定义时间语义
目录1. 定义处理时间2. 定义事件时间3. 参考资料1. 定义处理时间处理时间不用指定wartermark,基于本地的机器时间,是一种最简单的时间语义,但是不能保证结果一致性,使用该时间语义不需要提取时间戳和生成水位线。处理时间的属性可以在DDL语句中被定义为一个计算列,需要使用PROCTIME()函数,如下所示:CREATE TABLE user_actions ( user_name STRING, data STRING, user_action_time转载 2022-01-23 09:18:59 · 540 阅读 · 1 评论 -
Flink SQL案例总结
实时数仓|Flink SQL之维表join - 知乎222. 参考资料实时数仓|Flink SQL之维表join - 知乎Flink Table API&SQL编程指南之时间属性(3)转载 2022-01-23 09:14:48 · 398 阅读 · 0 评论 -
flink sql中指定时间字段
1. 通过proctime AS PROCTIME() 来指定如下面flink ddl中使用 proctime AS PROCTIME() 来生产一个新的计算列,该计算列可当作处理时间来对待。计算列常常被用在定义时间属性(见另一篇文章Flink Table API&SQL编程指南之时间属性(3),可以通过PROCTIME()函数定义处理时间属性,语法为proc AS PROCTIME()。除此之外,计算列可以被用作提取事件时间列,因为原始的事件时间可能不是TIMESTAMP(3)类型或者转载 2022-01-22 21:57:03 · 13313 阅读 · 1 评论 -
Flink checkpoint机制
目录1. checkpoint的用途2. checkpoint的生成机制3. checkpoint的状态存储4. job的重启策略5. 参考资料可保证Flink集群在某个算子因为某些原因(如 异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态,保证应用流图状态的一致性。1. checkpoint的用途某个算子故障,保证整个应用流图状态,恢复到之前的某一个状态。2. checkpoint的生成机制checkpoint 协调器,控制这每一次checkp原创 2022-01-18 20:46:23 · 770 阅读 · 0 评论 -
Flink中的Wartermark
1. Wartermark是什么Watermark 是 Apache Flink 提出的一种用来解决乱序、延迟数据等情况的解决方案,通常和窗口结合使用。本质上来说 Watermark 就是 单调递增的时间戳,来控制等待延迟数据的最大时长。由周期性生成和标记生成两种方法。单流wartermark多流wartermark:多流会出现空闲流的问题。空闲流的问题,用户可以设置一个超时时间,当某个流超过指定时间,没有新数据的话,flink就会放弃原来的全局wm,重新生成一个新的wm。2. 两原创 2022-01-08 17:44:26 · 851 阅读 · 0 评论 -
对比Flink作业提交的几种方式
1. Session Mode1.1 流程(1)session mode会预分配资源,根据指定资源实现创建一个flink集群常驻与Yarn中,并启动一个JobManager和若干TaskManager。(2)这时可以直接提交作业,节省了申请和分配资源的开销1.2 优缺点总结(1)该模式下所有job共享这些固定的资源,而且作业之间不能隔离,会出现资源竞争的情况。(2)当一个TM发生故障,那么所有在这个节点上的job都会失败。(3)当提交的作业越来越多时,JM的负载会越来越高。1原创 2022-01-02 11:12:07 · 1407 阅读 · 0 评论 -
Flink Catalog介绍
1. Flink Catalog资料总结Catalog 就是元数据管理中心,其中元数据包括数据库、表、表结构等信息。Flink 的 Catalog 相关代码定义在 catalog.java 文件中,是一个 interface,如下。/** * This interface is responsible for reading and writing metadata such as database/table/views/UDFs * from a registered catal...原创 2021-03-17 12:46:45 · 2402 阅读 · 0 评论 -
在IDEA环境中调试 flink-streaming-platform-web 中的module
目录1. 概述2. IDEA环境设置,并启动调试2.1 设置IDEA环境2.2 开始调试1. 概述本文记录在IDEA环境中调试上述项目中的flink-streaming-core 模块,关于 flink-streaming-platform-web 工程的说明,可以参考https://blog.csdn.net/litlit023/article/details/113776709?spm=1001.2014.3001.5501https://blog.csdn.net/l.原创 2021-03-05 20:20:29 · 416 阅读 · 0 评论 -
flink-streaming-platform-web 源码解读
1. 任务列表模块分析任务列表模块如下图所示,其中新增和修改任务操作,对应到 job_config表里面插入、更新一条记录。在插入、更新时对任务配置进行检测。1.0 页面交互部分代码结构0、与页面交互的Controller API,代码位于: -> flink-streaming-web 模块 -> controller包 -> api 包里面1.1 新增任务流程 -> addPage.ft...原创 2021-02-28 21:40:00 · 2527 阅读 · 0 评论 -
Prometheus+Grafana监控告警套装
MySQL,Redis,MongoDB这类服务,遇到故障的时候,及时通知,和预警原文地址https://blog.csdn.net/xinxin6193/article/details/112680361转载 2021-02-16 19:09:03 · 161 阅读 · 0 评论 -
在Zeppelin环境下跑通Streaming ETL样例
1. 概述1.1 场景描述本文主要演示Zeppelin中自带的Streaming ETL例子。主要是为解释器添加好相关依赖即可,在实际操作的时候,直接执行notebook中的paragraph添加依赖不起作用,因此后来采用了直接配置flink的解释器,这样会对全局flink 解释器生效。1.2 软件版本在zeppelin使用的版本是zeppelin-0.9.0-bin-all。flink的版本是 flink-1.10.1-bin-scala_2.11.tgz。基于docker..原创 2021-01-10 19:12:15 · 285 阅读 · 0 评论 -
Zeppelin中添加第三方依赖Kafka
目录1. 概述2. 参考资料1. 概述在Zeppelin里如何添加第三方依赖,主要有以下两种方法flink.excuetion.packages flink.execution.jars在zeppelin中,使用flink链接kafka数据源,例如访问zeppelin的flink demo时,会有以下的一个paragraph来配置第三方jar包依赖,我们直接执行这个paragraph,zeppelin即可自动帮助我们下载上面的依赖:%flink.conf# This .原创 2021-01-07 22:37:51 · 619 阅读 · 0 评论 -
Kafka Connect Datagen 创建测试数据生成器
本文总结了关于Kafka Connect Datagen的使用资料,详情可参考下面的链接https://github.com/xushiyan/kafka-connect-datagen/tree/0.1.0/example/quickstarthttps://zeppelin-kafka-connect-datagen.readthedocs.io/en/latest/https://www.cnblogs.com/a00ium/p/10947085.html...原创 2021-01-06 21:54:52 · 1116 阅读 · 3 评论 -
Flink SQL 流计算可视化 UI 平台
转载地址:https://mp.weixin.qq.com/s/5OwlCikr5AYKkN6xi0-2owhttps://github.com/zhp8341/flink-streaming-platform-webhttps://github.com/zhp8341/flink-streaming-udf转载 2021-01-04 12:35:15 · 1800 阅读 · 0 评论 -
Zeppelin SQL资料总结
请参考这里 :https://www.yuque.com/jeffzhangjianfeng/gldg8w/te2l1c转载 2020-12-27 22:27:16 · 623 阅读 · 0 评论 -
Flink中常用的算子总结
总结flink中常用的算子1. keyBykeyBy有两个主要的应用,数据分发,上下游算子异步处理1.1 数据分发这个算子作为一个数据分发策略【分发还有还有的策略,例如:reblance(轮询),partitionCustom(自定义)】,根据某个字段作为key进行分组,key相同的会被分到一起,如下图示例,相同颜色的正方形分配到一起。1.2 异步处理在DataStream中,经过keyBy后悔编程KeyedStream,这时会将被KeyBy分割的上下游算子 异步计算..原创 2020-12-26 17:28:46 · 1256 阅读 · 0 评论 -
Flink on Zeppelin知识图谱
下图来自Flink on Zepplin顶顶群原创 2020-12-26 15:58:19 · 169 阅读 · 0 评论 -
Flink On Zeppelin Remote模式环境搭建
目录1. 概述2. Zeppelin Remote 模式概述3. 运行flink demo示例4. 参考资料1. 概述Flink on Zeppelin环境的Remote模式,与Local模式基本是一样的,只是Remote模式需要额外启动一个Flink集群,并设置以下4个参数即可:FLINK_HOMEflink.execution.modeflink.execution.remote.hostflink.execution.remote.port2. Zep.原创 2020-12-21 14:53:20 · 828 阅读 · 1 评论 -
Flink常用的配置参数总结
1. rest.port改参数默认值是8081,#rest.port: 8081该配置是 rest client连接时的端口,如果rest.bind-port没有指定特定的端口值,那么该端口默认是8081;如果rest.bin-port被设置了特定的值,则该rest.port=rest.bin-port//flink-conf.yaml中对该参数的解释# The port to which the REST client connects to. If rest.bind-port h原创 2020-12-20 19:34:24 · 3754 阅读 · 0 评论 -
Flink On Zeppelin环境搭建异常总结
本文主要总结,在搭建flink on zeppelin环境时遇到的异常信息1. 在Zeppelin中执行flink代码时,遇到了下面的异常在zeppelin中执行flink任务时,又遇到了下面的异常,看着像是jar报版本兼容的问题。。。。真是一波三折啊。。。。。。。。明天再搞吧,今天累了org.apache.zeppelin.interpreter.InterpreterException: java.lang.NoSuchMethodError: org.apache.fli.原创 2020-12-19 23:00:37 · 1253 阅读 · 2 评论 -
Flink On Zeppelin Local模式环境搭建
目录1. 下载相关jar包2. 启动一个flink local模式的集群3.配置 Flink Interpreter1. 下载相关jar包flink-hadoop-compatibility flink v.1.12下载地址https://repo1.maven.org/maven2/org/apache/flink/flink-hadoop-compatibility_2.11/1.12.0/flink-shaded-hadoop-2-uber下载地址https://r..原创 2020-12-19 22:56:56 · 386 阅读 · 1 评论 -
Flink Hadoop Compatibility
目录1. 概述2. 参考地址1. 概述在开发Flink程序时,如果在Flink application中要用到Hadoop的input-/output format,如下图所示,只需引入Hadoop兼容包即可(Hadoop compatibility wrappers)例如Flink官网给出的文档Hadoop 兼容BetaSupport for Hadoop input/output formats is part of theflink-javaandfli...原创 2020-12-19 16:37:28 · 419 阅读 · 2 评论 -
Apache Zeppelin安装和启动
目录1. 下载安装包2. 修改配置2.1 修改 zeppelin-site.xml2.2 修改zeppelin的内存大小3. 参考资料1. 下载安装包下载地址http://zeppelin.apache.org/download.html,例如我们下载最新版本zeppelin-0.9.0-preview2-bin-all.tgz上传linux服务器 /work/zeppelin目录,并解压 tar -zxvfzeppelin-0.9.0-preview2-bi...原创 2020-12-18 22:26:56 · 1271 阅读 · 1 评论 -
Flink on Zeppelin使用资料汇总
1.Flink on Zeppelin 教程https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzIzMTM4NjU0MQ==&action=getalbum&album_id=1382188392255209473&scene=173&from_msgid=2247483692&from_itemidx=1&count=3#wechat_redirect2. Flink on Zeppelin文档集中..原创 2020-12-18 21:17:46 · 327 阅读 · 1 评论 -
基于Clickhouse的实时数仓
这里先直接上图,后续再完善内容原创 2020-12-13 15:27:14 · 1477 阅读 · 2 评论 -
Flink connector学习笔记总结
目录1. 概述2. Flink预定义的source和sink2.1 基于文件的source/sink2.2 基于Socket的Source和Sink2.3 基于内存Collections、Iterators的Source3. Bundled Connectors4. Apache Bahir5. Async I/O6. 参考资料1. 概述Flink是新一代的流批统一的计算引擎,因此需要从外部读取数据,并将处理结果写出外部存储。Flink通过connec..原创 2020-12-12 23:09:31 · 613 阅读 · 0 评论 -
Flink sql实现原理及Apache Calcite介绍
1. 整理flink sql的实现原理2. 整理apache calcite学习资料原创 2020-12-10 12:31:35 · 561 阅读 · 0 评论 -
Flink学习笔记之Metrics原理与实战
目录1. 概述2. Metrics基础知识介绍2.1 metric types2.2 metric group3. metrics的使用3.1 System metrics3.2 用户自定义metrics3.3 获取metrics的方式3.4 metric reporter6. 参考链接1. 概述2. Metrics基础知识介绍flink提供的metrics可以在flink内部收集一些指标,来让开发和运维人员更好的理解作业或集群状态。2.1..原创 2020-12-08 19:56:41 · 808 阅读 · 0 评论 -
Alink学习资料汇总
1、Alink在线学习(Online Learning)示例https://zhuanlan.zhihu.com/p/989902952、alink 项目github地址https://github.com/alibaba/Alinkhttps://gitee.com/mirrors/Alink原创 2020-12-08 15:56:46 · 1061 阅读 · 0 评论 -
TCP网络传输动态流控流控feedback机制原理剖析
1. TCP自身动态网络流控feedback机制实现原理tcp网络流控中,主要是通过滑动窗口来实现feedback机制的。当TCP中的consumer接收端window=0时,tcp的producer端有一个ZeroWindowProbe机制,定期探测consumer端的Buffer是否可以继续接收数据。TCP 当中有一个 ZeroWindowProbe 的机制,发送端会定期的发送 1 个字节的 探测消息,这时候接收端就会把 window 的大小进行反馈。当接收端的消费恢复了之后,接收到探.原创 2020-12-03 21:44:21 · 496 阅读 · 0 评论