![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Flink实时数仓
文章平均质量分 75
黄瓜炖啤酒鸭
黄瓜炖啤酒鸭 欢迎分享,欢迎交流,有不懂的可以加微信交流,拒绝红包等利益交流,不懂就问。
展开
-
记录用yarn restfulapi 取消或者杀死任务historyserver不记录问题
flink historyserver flink on yarn restful api调用获取yarn任务的checkpoint路径原创 2022-06-17 10:50:45 · 1220 阅读 · 2 评论 -
flink CDC实践
1. FlinkCDC项目:GitHub - ververica/flink-cdc-connectors: Change Data Capture (CDC) Connectors for Apache Flink欢迎关注(star)2. 项目文档:Welcome to Flink CDC — Flink CDC 2.0.0 documentation3. 社区论坛:鼓励在论坛中提问,技术专家值守,保证有问必答https://github.com/ververica...原创 2021-10-27 19:37:12 · 1989 阅读 · 0 评论 -
flink 读取hive表 写入到kafka方案
场景:使用flinksql读取hive表数据写入到kafkahive表大约80个字段 500W数据遇到问题:内存爆炸,4G内存都不够,这肯定不行。GC严重:解决方案:无总结:目前不可用。原创 2021-05-19 11:43:48 · 2292 阅读 · 0 评论 -
实时数仓建设思考与方案记录-转载
前言 随着我司业务飞速增长,实时数仓的建设已经提上了日程。虽然还没有正式开始实施,但是汲取前人的经验,做好万全的准备总是必要的。本文简单松散地记录一下想法,不涉及维度建模方法论的事情(这个就老老实实去问Kimball他老人家吧)。动机随着业务快速增长,传统离线数仓的不足暴露出来: 运维层面——所有调度任务只能在业务闲时(凌晨)集中启动,集群压力大,耗时越来越长; 业务层面——数据按T+1更新,延迟高,数据时效价值打折扣,无法精细化运营与及时感知异常。 实时数仓即离线数仓的..转载 2021-05-18 10:24:05 · 544 阅读 · 0 评论 -
Flink join详解-未完
1,join原创 2020-06-03 10:01:07 · 468 阅读 · 0 评论 -
Flink sql 基于hbase,mysql的维表实战 -未完
目前需要用到维表数据,所以选择hbase作为维表数据存储1)sql加载kafka的数据原创 2020-06-03 09:59:13 · 3080 阅读 · 4 评论 -
Flink实时数仓---1,Flink SQL读取kafka实操,已经遇到的问题.....持续更新吧
1,第一步很重要就是依赖的问题,因为是本地执行,所以最好有hadoop配置环境,没有的话会提示错误信息,自己百度一下,自己下载个winutils.exe ,然后配置环境变量2,为了图方便直接贴上pom文件依赖(自己看哈,就是hive跟hadoop的依赖):<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xm...原创 2020-05-20 13:50:15 · 3772 阅读 · 0 评论 -
Flink 实时数仓-思考与总结
1,什么是Flink实时数仓。大家做离线开发是的时候数据存储在hdfs或者hive,基于此,不管用什么组件,数据源都是hive,然后定时执行脚本,跑离线任务啥的。实时数仓大家可以理解为数据都存储在kafka,Flink消费kafka的数据然后进行逻辑处理,然后再下发到kafka,这么延迟是秒或者分钟级别的,对于不同的业务效果更好,更实时。2,为什么要做实时数仓呢? 我的理...原创 2020-02-12 22:00:56 · 7413 阅读 · 6 评论 -
hudi同时读写遇到的问题,以及疑惑汇总
1,创建一个kafka的表%flink.ssqlDROP TABLE IF EXISTS logtail;--创建kafka表CREATE TABLE logtail (order_state_tag int ......................) WITH ('connector' = 'kafka','topic' = 'ods.rds_core.plateform_stable.assure_orders','prop...原创 2021-05-07 15:37:45 · 5002 阅读 · 6 评论 -
基于zeppelin使用hive或Flink查询hudi的数据
目录目标:一,导入jar二,创建hudi表:mor:cow:写入数据:三,创建hive外部表四,查询结果五,问题总结最后提醒:目标:像iceberg一样,在hive能直接查询hudi表数据。一,导入jar将hudi-hadoop-mr-bundle-0.9.0-SNAPSHOT.jar放入到hivelib下面;二,创建hudi表:mor:cow:写入数据:三,创建h...原创 2021-04-28 16:39:02 · 1162 阅读 · 1 评论 -
基于zeppelin,Flink操作hudi 草稿
声明测试是CDH环境Flink 1.12.2hudi是最新版本1,flinklib下面hudi-flink-bundle_2.11-0.9.0-SNAPSHOT.jar这个包是大佬编译的,解决了hive的依赖冲突,已经提到社区了,后续会合并到分支。2,zeppelin操作...原创 2021-04-27 19:23:12 · 344 阅读 · 4 评论 -
iceberg整合hive(从hive读取iceberg表数据)实践02
目录实现目标:1,创建hadoop catalog在zeppelin创建hadoop catalog2,创建基于hadoop_catalog的iceberg表 3,从hadoop_catalog来创建hive表,在hive shell执行4,向iceberg插入数据验证5,hive查询实现目标: 在hive查询iceberg表数据1,创建hadoop catalog在zeppelin创建hadoop catalogCREATE CAT...原创 2021-04-26 20:19:39 · 5668 阅读 · 6 评论 -
基于zeppelin ,Flink sql 读取kafka数据写入数据到iceberg
目录一、基于zeppelin ,Flink sql读取kafka数据写入数据到iceberg 1,首先一定要添加checkpoint2,创建iceberg表3,切换catalog ,创建kafka表usecataloghive;4,执行sql插入数据5,查看iceberg二、参考文章总结一、基于zeppelin ,Flink sql读取kafka数据写入数据到iceberg 1,首先一定要添加checkpoin...原创 2021-04-23 17:58:00 · 751 阅读 · 0 评论 -
CDH集群下,Flink+hive+iceberg+zeppelin实践—01
实操记录版本:Flink 1.11.2iceberg最新版本zeppelinhive是基于cdh 6.3.2版本下的hive 2.1注意,iceberg只支持2.x以上,官网说的。一,保证Flink on zeppelin查询hive没问题 1)Zeppelin flink 参数配置:Flink sql 读写hive1)Jar包放入Flink lib下: flink-connector-hive_2.11-1.11.2.jar hive...原创 2021-04-22 18:03:05 · 2105 阅读 · 3 评论 -
再一次记录Flink-cep集群运行报错问题
一,场景说明1,版本flink-1.11.2flink-cep-1.11.22,稍微修改了flinkcep源码3,本地运行结果4,集群运行报错二,报错信息三,解决思路报错信息是找不到我们的方法:1,首先看是不是打包的问题,解压安装包,反编译发现打包是没问题的。2,看是不是集群的包冲突,看起来也没cep的包3,cep源码单独打包,通过依赖添加到项目中再打包运行,还是报错。四,最后解决...原创 2021-04-13 15:28:03 · 399 阅读 · 1 评论 -
Flink性能调优小小总结(转载)
Flink性能调优小小总结1 ,配置内存操作场景Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。监控节点进程的YARN的Container GC日志,如果频繁出现Full GC,需要优化GC。GC的配置:在客户端的"conf/flink-conf.yaml"配置文件中,在“env.java.opts”配置项中添加参数:..转载 2021-04-06 09:26:26 · 1012 阅读 · 0 评论 -
Flink sql使用遇到的问题mark
遇到了类似的问题:报错信息:Caused by: org.apache.flink.table.api.ValidationException: Could not find any factory for identifier 'kafka' that implements 'org.apache.flink.table.factories.DynamicTableSourceFactory' in the classpath.Available factory identifiers are:原创 2021-03-16 15:40:00 · 4842 阅读 · 0 评论 -
记一次TopN 引起的Flink任务报错--转载
起因最近临近双十一,你们也知道,电商类公司到双十一的时候有多忙。压测、稳定性、实时大屏,一堆事情要在双十一之前完成。加上我们最近在做数据平台相关的事情,简直忙到爆炸。就在这么忙的时候,还踩到了Flink中Topn的坑。issule我已经提了,具体可以看这个点我直达issule,感谢@云邪老师帮我改描述标题和内容,我英文实在蹩脚简单的说一下场景Data Source : kafka + canal-jsonData Process : Topn转换成Sql就是create table t_转载 2020-10-28 17:08:04 · 1035 阅读 · 0 评论 -
Flink 动态sink到多个topic,并且实现自定义分区器
1,我们先实现的是序列化类public class CustomKeyedSerializationSchema implements KeyedSerializationSchema<TopicAndValueDemo> { @Override public byte[] serializeKey(TopicAndValueDemo topicAndValueDemo) { String pk = topicAndValueDemo.getPk(.原创 2020-09-01 15:59:37 · 3371 阅读 · 1 评论 -
简单程序实现 mysql 表创建sql 转成 doris 表创建sql
1,导入依赖<dependency> <groupId>com.github.jsqlparser</groupId> <artifactId>jsqlparser</artifactId> <version>3.1</version></dependency>2,读取sql文件,sql转换package readsql;import net.sf.jsqlpars原创 2020-10-23 16:25:13 · 1926 阅读 · 3 评论 -
Flink CDC streaming java代码实战
1,关于Flinkcdc的使用说明 1)导入依赖<dependency> <groupId>com.alibaba.ververica</groupId> <artifactId>flink-connector-mysql-cdc</artifactId> <version>1.1.0</version></dependency> sql案例 : 2)需要理解注意的地...原创 2020-10-21 19:18:18 · 5325 阅读 · 12 评论 -
Flink 输出到kafka 自定义分区遇到问题,请教大家
简单说一下,scala代码添加了自定义分区器,一直报错对应的构造器,不知道哪里写错java代码是没问题的:原创 2020-10-21 11:14:33 · 423 阅读 · 2 评论 -
基于Flink实时数仓的完整链路
整理中一,架构二,整体流程三,过程四,总结原创 2020-10-13 11:12:12 · 955 阅读 · 0 评论