大数据
文章平均质量分 62
莫忘莫忧
这个作者很懒,什么都没留下…
展开
-
Flink之watermark 处理延迟数据 详解
watermark介绍在Flink中,Watermark 是 Apache Flink 为了处理 EventTime 窗口计算提出的一种机制, 本质上是一种时间戳。 用来处理实时数据中的乱序问题的,通常是水位线和窗口结合使用来实现。从设备生成实时流事件,到Flink的source,再到多个oparator处理数据,过程中会受到网络延迟、背压等多种因素影响造成数据乱序。在进行窗口处理时,不可能无限期的等待延迟数据到达,当到达特定watermark时,认为在watermark之前的数据已经全部达到(即使后面原创 2021-12-11 12:14:38 · 3598 阅读 · 1 评论 -
Flume中从kafkasource分配数据到kafkaSink时,topic被覆盖问题
问题:当kafkasource和kafkasink一起使用时, 传输到kafkasink的数据,被传到了kafkasource。即陷入死循环,从 kafkasource 读取的数据被flume 重新传到kafkasource。原因当flume从kafka里读取的数据时,消息上会event headers结构。在events header中会自动带上,topic:‘topic名称’。如:而kafka sink的 中 allowTopicOveride参数默认为true,即会使用topichead原创 2021-11-09 17:58:48 · 2282 阅读 · 1 评论 -
IDEA中,Flink项目编译报错出现could not find implicit value for evidence parameter
IDEA中,Flink项目编译报错出现could not find implicit value for evidence parameter错误提示:Error:(18, 33) could not find implicit value for evidence parameter of type org.apache.flink.api.common.typeinfo.TypeInformation[String]val text1 = env.fromElements(“user:tom,ag原创 2021-10-26 19:48:19 · 619 阅读 · 0 评论 -
数据可视化-Zeppelin安装和连接HIVE
Zeppelin 安装zeppelin下载官网地址:http://zeppelin.apache.org/点击这三个链接都是可以下载的,BACKUP SITES可能会快一点。下载完后进行解压: tar -zxvf zeppelin-0.10.0-bin-all.tgz修改配置文件:> cd conf> mv zeppelin-env.sh.template zeppelin-env.sh> mv zeppelin-site.xml.template z原创 2021-09-23 19:14:31 · 542 阅读 · 1 评论 -
Hadoop集群安全模式退出失败问题处理,Safe mode is ON。hdfs dfsadmin -safemode leave 或 forceExit
问题Hadoop集群启动的时候,一起处于安全模式中,无法自动退出。问题产生原因因为经常非正常关闭hadoop集群,如直接关闭虚拟机,导致hdfs中有些块丢失了或者损坏。这时hadoop就会进入安全模式。处理要先手动退出安全模式,再把损坏的block删掉就行。退出安全模式第一种:正常退出安全模式hdfs dfsadmin -safemode leave如提示Safe mode is OFF,那就说明退出成功,但有时候这个命令也没办法退出安全模式,就需要使用强制退出第二种:强制退出安全模原创 2021-08-23 17:37:41 · 6046 阅读 · 3 评论