Flink
头顶榴莲树
持续分享大数据技术经验,欢迎交流~
展开
-
FlinkSQL消费Kafka写入Hive表
flinkSQL消费kafka实时写入hive表原创 2022-10-13 11:08:45 · 7555 阅读 · 4 评论 -
Could not find any format factory for identifier ‘parquet‘ in the classpath
Could not find any format factory for identifier 'parquet' in the classpath原创 2022-10-11 13:38:18 · 1101 阅读 · 0 评论 -
Flink任务OOM问题
当我们要读取大表时,例如hive表,很容易出现task内存不够用的情况,当这种情况出现时,任务可能会报出GC异常或者TaskManager心跳异常等,如下:1、java.lang.OutOfMemoryError: GC overhead limit exceeded2、java.util.concurrent.TimeoutException: Heartbeat of TaskManager with id 【containerID】 timed out.这时我们可以观察TaskMana原创 2022-04-13 14:43:18 · 5239 阅读 · 0 评论 -
Flink on Yarn 日志存储位置
有时我们的flink作业中打印太多日志(可能GB级别),在flink job web上加载就会很慢,这时我们想找到job输出的文件存放在哪个节点的目录下,并直接去查看日志文件,但是怎么找呢,来吧我们看下,我有个场景,flink作业中使用System.out.print输出了很多日志,导致在flink job web上加载就很慢,下载该日志时提示有15G,所以干脆不要下载了。我们查看下flink on yarn的作业启动输出信息,找下它的任务在哪几个节点跑,并且找到日志位置信息,我们打开它的yarn任务界面原创 2022-01-13 08:21:18 · 4465 阅读 · 0 评论 -
FlinkSQL流式关联Hbase大表方案(走二级索引)
我们在做实时数据开发的时候,通常要用spark、flink去消费kafka的数据,拿到数据流后会和外部数据库(Hbase、MySQL等)进行维表关联来把数据流打宽。当然了,有些外部数据库不只是存储维度数据,也会有很多事实数据,并且这些数据更新频繁,数据量巨大,但是我们的Flink流也会去实时的join这些巨大的事实表,这就需要选择一个合适的外部数据库作为支持,这个外部数据库一定要满足海量数据高效的读写性能,这样才能满足实时场景的需求,说到这,我们的目光自然而然的落到了Hbase上,来吧,我们直接上图,下..原创 2022-02-10 16:40:05 · 3389 阅读 · 1 评论