![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
flink
文章平均质量分 73
csdn-延
好记性不如个烂笔头
展开
-
实时数仓建设核心
接着需要新起一个任务,从原来比较早的一个时间节点去消费 Kafka 上的数据,然后当这个新的任务运行的进度已经能够和现在的正在跑的任务齐平的时候,你就可以把现在任务的下游切换到新的任务上面,旧的任务就可以停掉,并且原来产出的结果表也可以被删掉。对于实时数仓来说,怎么去解决数据重算问题?实时明细层:在明细层,为了解决重复建设的问题,要进行统一构建,利用离线数仓的模式,建设统一的基础明细数据层,按照主题进行管理,明细层的目的是给下游提供直接可用的数据,因此要对基础层进行统一的加工,比如清洗、过滤、扩维等。转载 2023-07-31 00:37:25 · 84 阅读 · 0 评论 -
UDF和UDAF、UDTF的区别
简单说就是输入一行输出一行的自定义算子。是大多数 SQL 环境的关键特性,用于扩展系统的内置功能。原创 2023-07-31 00:25:13 · 480 阅读 · 0 评论 -
Flink On Yarn模式部署与验证
该模式下分为2步,即使用yarn-session.sh申请资源,然后 flink run提交任务。原创 2023-07-30 23:57:42 · 549 阅读 · 0 评论 -
Flink 流批一体在 Shopee 的大规模实践
所以我们一直想优化这个流程,在最近发布的 1.16 中,支持了接入外部 log 的功能,我们针对日志较少的 Batch 任务,直接使用该特性跳转到 yarn 的 history log,十分方便查看问题 Task 的全量日志。我们最后使用了自己开发的 SlotGroup 级别的资源配置,整体思路是不同的 SlotGroup 申请不同规格的 TM,Slot 依然是均分 TaskManager 的资源,但可以通过为不同的 Operator 设置不同的 SlotGroup,进而设置不同的资源量。转载 2023-07-30 23:33:13 · 62 阅读 · 0 评论 -
实时数仓一般性总结
但是有两个问题,第一个问题是小文件很多,但这不是最关键的,第二个问题是最致命的,上游每分钟提交了很多文件到HDFS上,下游消费的Flink是不知道哪些文件是最新提交的,因此下游Flink就不知道应该去消费处理哪些文件。这个问题才是离线数仓做不到实时的最关键原因之一,离线数仓的玩法是说上游将数据全部导入完成了,告诉下游说这波数据全部导完了,你可以消费处理了。这类需求是需要一个可以支持更新的存储系统的,而离线数仓做更新的话需要全量数据覆盖,这也是离线数仓做不到实时的关键原因之一,数据湖是需要解决掉这个问题的。转载 2023-07-30 23:22:22 · 95 阅读 · 0 评论 -
flink join 之 interval join
还有一个很重要的点是:与regular join相比较,interval join只支持带有时间属性的append-only流。Flink Regular Join是最为基础的、没有缓存剔除策略的Join,两个表的输入和更新都会对全局可见,会影响之后所有的Join 结果。Interval join需要至少一个 equi-join 谓词和一个限制了双方时间的 join 条件。interval join 其实就是一种开窗的 regular join,他由flink自身维护状态缓存Row无限增大的问题。转载 2023-07-30 23:05:36 · 310 阅读 · 0 评论 -
FLinkCDC读取MySQl时间戳时区相关问题解决汇总
FlinkCDC时间问题timestamp等FLinkCDC读取MySQl中的日期问题关于flink1.11 flink sql使用cdc时区差8小时问题flinksql 中使用 处理时间时, 时区差八个小时的问题 (在 flink 1.13 以后不会在出现时区问题了)flink cdc同步MySQL-->MySQL,时间少了13个小时实测解决 flink cdc mysql 时间字段差8小时/差13小时问题原创 2023-07-30 17:08:42 · 1030 阅读 · 0 评论 -
Flink 窗口聚合提前触发参数(流和SQL)
Flink sql 的窗口聚合也可以想 Streaming api 设置 trigger 一样,提前触发计算,并且输出的结果是 upsert 流,会发出 -U/+U 两条数据(输出到 upsert-kafka 就只有 +U 的消息了)转载 2023-05-22 22:18:12 · 326 阅读 · 0 评论 -
实时数仓分层介绍
ODS: 原始数据,日志和业务数据。可通过Kafka进行收集。DWD: 根据数据对象为单位进行分流,比如订单、页面访问等等。可存储在Kafka中。DIM: 维度数据。可存储在HBase中。DWM: 对于部分数据对象进行进一步加工,比如独立访问、跳出行为,也可以和维度进行关联,形成宽表,依旧是明细数据。DWS: 根据某个主题将多个事实数据轻度聚合,形成主题宽表。 可存储在Doris、ClickHouse、Elasticsearch中。DM/ADS: 把Doris/ClickHouse中的数据根据可视化需进行筛原创 2021-12-06 00:58:05 · 1625 阅读 · 0 评论 -
图文解说Flink的应用场景和功能
一 Flink是什么Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见的集群环境中运行,并能以内存速度和任意规模进行计算。二 为什么要选择Flink流式处理的特点是无界和实时的,不需要针对整个数据集进行处理,而是对系统传输的每个数据执行操作,因此流数据处理能更真实的反应我们的生活和工作方式;通常用在实时处理方面。我们工作的目标是低延迟的、高吞吐的、高可用的实时应用。三 哪些行业需要处理流数据电商转载 2021-08-15 23:38:15 · 11097 阅读 · 0 评论 -
批处理和流处理
目录Apache Storm Apache SamzaApache SparkApache Flink 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 本文将介绍大...转载 2019-04-22 14:54:18 · 1720 阅读 · 0 评论