![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
flink
weixin_42094092
这个作者很懒,什么都没留下…
展开
-
flink写es报分片不足
flink写es报分片不足:ERROR org.apache.flink.streaming.connectors.elasticsearch.ElasticsearchSinkBase [] - Failed Elasticsearch item request: ElasticsearchException[Elasticsearch exception [type=illegal_argument_exception, reason=Validation Failed: 1: this action原创 2021-07-21 10:54:13 · 555 阅读 · 0 评论 -
flink写hive hdfs一直挂在.inprogress状态
flink1.12写hive,一直查不出数据,查看hdfs文件,每个分区的文件正常在生成,但都处于.inprogress状态,没有success文件,查看相关资料,是checkpoint失败的问题,解决checkpoint失败问题,数据正常写入原创 2021-04-21 16:11:25 · 2306 阅读 · 4 评论 -
flink日志配置
1.引入依赖 <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-api</artifactId> <version>1.7.21</version> </dependency> <dependency>原创 2020-09-08 19:30:54 · 955 阅读 · 0 评论 -
flink 本地idea运行,并访问webui
flink本地运行,访问webui方法:添加依赖:flink-runtime-web一定要添加这个依赖,否则访问页面是会报{“errors”:[“Not found.”]} <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-runtime-web_2.11</artifactId>原创 2020-08-25 22:11:39 · 2745 阅读 · 1 评论 -
flink1.11 消费kafka 流式写入hive
目前网上对于flinksql1.11消费kafka流式写入hive资料比较少,且大多是直接在flink中新建kafka表写入hive,但对多层嵌套的json解析不知支持力度几何 ,我这是使用streaming api 消费kafka先将json解析拉平,再转成临时表,最后流式写入hive,且看代码:package com.xxx.xxximport java.sql.Timestampimport java.util.Propertiesimport java.time.Durationimpo原创 2020-08-12 14:30:54 · 2147 阅读 · 3 评论 -
flink集成到cdh
cdh目前没有flink的parcels包,那么怎么把flink集成到cdh集群呢,其实很简单,把flink包拷到cdh某台主机,即插即用,具体步骤如下:flink下载页面:https://flink.apache.org/downloads.htmlflink官方文档:https://ci.apache.org/projects/flink/flink-docs-release-1.10/官网下载flink-1.10.1-bin-scala_2.11.tgz拷上集群,那个机器需要提交任务就拷到哪个原创 2020-07-22 18:40:41 · 800 阅读 · 0 评论 -
使用flink进行一天的UV(dau)统计
使用flink1.9进行实时dau统计难点:窗口时间长(24小时),dau统计不能增量统计,需全窗口去重实现:实现ProcessAllWindowFunction使用mapstate配合和rocksDB做全窗口数据缓存,基于processtime每20s触发一次从0点到当前的去重计算,即为实时dau优化点:使用evictor方法,移除掉已经缓存进mapstate的数据,使进入到process()方法的数据量减少,减少性能损耗不足:由于全窗口计算,dau又无需keyby,导致计算部分始终一个并行度在运原创 2020-07-22 16:24:56 · 7928 阅读 · 3 评论 -
大白话flink watermark 水位线 最大乱序时间
flink watermark水位线是什么?最大乱序时间是什么?初次接触者往往比较蒙,可能有人理解是这样:如果最大乱序时间设为10s,是不是指本应该触发窗口计算的时间点延后10s计算,以便等待更多的数据,这样不就达到处理迟到的数据的目的了么事实是这样么?我们先来说说在已事件时间作为窗口时间的计算触发规则:没什么为什么,就是这么定义的:1.窗口内有数据,2.水位线时间>=窗口的结束时间我们先假定窗口内肯定有数据,那水位线时间怎么样能>=窗口时间呢?大白话解释一下:水位线其实就是一个原创 2020-07-21 21:51:32 · 540 阅读 · 0 评论