
flink
文章平均质量分 56
大数据之实时计算引擎flink
赶路人儿
一个十年以上编程人员,擅长使用java、python、C++等语言,具有广告投放、个性化推荐引擎等超大规模系统开发经验。
展开
-
Hadoop3 ShutdownHookManager visit closed ClassLoader
在yarn集群上启动一个flink任务,抛出如下异常:任务虽然可以正常运行,但是为了安全,还是google了一下这个错误,发现官方issue:https://issues.apache.org/jira/browse/FLINK-19916 This is because Hadoop 3 starts asynchronous threads to execute some shutdown hooks.These hooks are run after the job is executed,原创 2022-06-21 21:19:48 · 635 阅读 · 0 评论 -
FlinkKafkaConsumer相同group.id多个任务消费kafka问题
val bsEnv = StreamExecutionEnvironment.getExecutionEnvironmentEnv.setRestartStrategy(RestartStrategies.noRestart())val consumerProps = new Properties()consumerProps.put("bootstrap.servers", brokers)consumerProps.put("group.id", "test1234")val consum.转载 2022-05-12 12:03:59 · 7575 阅读 · 6 评论 -
org.apache.flink.client.deployment.ClusterDeploymentException: Could not deploy Yarn job cluster.
在cdh集群上,通过如下命令,提交flink任务到yarn集群中:flink run -m yarn-cluster -d -ynm my_flink_job xxx.jar报错,信息如下:org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: Could not deploy Yarn job cluster.Caused by: org.apache.fl原创 2022-04-20 14:45:26 · 3281 阅读 · 0 评论 -
Please make sure your program doesn‘t call an eager execution function [collect, print, printToErr
在cdh集群上跑了一个flink的wordcount代码,报如下错误:Checking existing jobs...Waiting for response...No running jobs.No scheduled jobs.Submitting job.../opt/flink/bin/flink run --jobmanager flinkjobcluster-sample-jobmanager:8081 --class org.apache.flink.examples.ja原创 2022-03-30 21:01:26 · 3434 阅读 · 0 评论 -
UnknownTaskExecutorException: No TaskExecutor registered under dfd3b6386d13f514062ef...
前两天运到一个问题:standalone版本的flink,重启后,还没有运行任务,查看jobmanagement的日志,发现一直报如下错误。2020-06-30 08:42:27,829 ERROR org.apache.flink.runtime.rest.handler.taskmanager.TaskManagerDetailsHandler - Unhandled exception.org.apache.flink.runtime.resourcemanager.exceptions..原创 2022-03-22 17:06:52 · 3769 阅读 · 3 评论 -
Flink 解决 No ExecutorFactory found to execute the application
问题Flink 1.11 开始报错如下:Exception in thread "main" java.lang.IllegalStateException: No ExecutorFactory found to execute the application. at org.apache.flink.core.execution.DefaultExecutorServiceLoader.getExecutorFactory(DefaultExecutorServiceLoader.java:转载 2022-03-15 20:04:19 · 1686 阅读 · 0 评论 -
flink1.10.0版本flink-dist_2.11-1.10.0.jar包scala版本错误bug
本地开发的flink任务放到服务器集群上运行,报java.lang.NoSuchMethodError,最终发现是flink的一个bug。原创 2022-03-03 10:11:17 · 3360 阅读 · 0 评论 -
flink任务失败restart策略和failover策略
一、restart策略Flink在任务失败恢复重启时支持多种重启策略,同时配置支持两个级别,可以通过设置flink全局配置文件flink-conf.yaml来指定全局重启策略,也可以通过编程的方式指定单个job的重启策略,极端情况下可以为每一个任务都指定一个重启策略;一般情况下,编程方式指定的单个job重启策略会将全局策略覆盖。在检查点机制未开启的情况下,flink默认会采取No Restart Strategy策略,即失败不重启;在检查点机制开启状态下,默认会采取Fixed Delay Resta原创 2022-01-06 17:09:52 · 6854 阅读 · 0 评论 -
创建parquet类型的hive外表
前面一篇文章中,介绍过如何使用flink,消费kafka数据,并且将数据以parquet格式sink到hdfs上,并且sink的时候使用了天、小时的方式进行了分桶策略。详情见:https://blog.csdn.net/liuxiao723846/article/details/107695737最终,在hdfs上形成了如下的文件:/data/test/dt=2020-08-07 -hour=00 -part-0-0 -part-0-1 -hour=01 -part-0-0原创 2020-08-07 16:24:54 · 7148 阅读 · 0 评论 -
Flink读取HDFS上的Parquet文件生成DataSet
首先打开Flink的官方网站,查看一下DataSet已支持的数据源:1、File-Based:readTextFile(path) / TextInputFormat - Reads files line wise and returns them as Strings.readTextFileWithValue(path) / TextValueInputFormat - Reads files line wise and returns them as StringValues. Strin转载 2020-08-07 15:01:51 · 1850 阅读 · 2 评论 -
StreamingFileSink压缩与合并小文件
Flink目前对于外部Exactly-Once写支持提供了两种的sink,一个是Kafka-Sink,另一个是Hdfs-Sink,这两种sink实现的Exactly-Once都是基于Flink checkpoint提供的hook来实现的两阶段提交模式来保证的,主要应用在实时数仓、topic拆分、基于小时分析处理等场景下。本篇将会介绍StreamingFileSink的基本用法、如何压缩数据以及合并产生的小文件。一、基本用法StreamingFileSink提供了基于行、列两种文件写入格式,用法:转载 2020-07-31 20:34:13 · 1717 阅读 · 1 评论 -
flink消费kafka数据,生成parquet结构的数据写到hdfs
参考:原创 2020-07-31 20:12:47 · 5916 阅读 · 10 评论 -
flink升级到1.4.2
在flink1.3.2及一下版本中有一个bug,导致吧cpu打满,从而会影响node manager上其他task的正常运行。官方链接说明:https://issues.apache.org/jira/browse/FLINK-7368看了以后,是由于MetricStore中使用hashmap,在多线程下出现死循环,导致cpu被打满。升级到1.4.2及以上版本就可以解决。升级过程中的注意事...原创 2019-03-14 11:37:42 · 787 阅读 · 0 评论