Flink实时数仓3.x
Flink实时数仓3.x
cts618
大数据高级工程师
展开
-
Flink 海量数据如何高效去重
Flink 海量数据如何高效去重原创 2022-09-02 14:48:56 · 922 阅读 · 0 评论 -
Flume启停脚本f1.sh
Flume启停脚本f1.sh原创 2022-08-16 10:06:51 · 485 阅读 · 0 评论 -
flume_to_kafka01.conf
flume_to_kafka01.conf原创 2022-08-16 08:51:57 · 59 阅读 · 0 评论 -
Union测试案例实战
import org.apache.flink.streaming.api.scala._import scala.collection.mutable.ListBufferobject UnionDemo { def main(args: Array[String]): Unit = { val env = ExecutionEnvironment.getExecutionEnvironment val data1 = ListBuffer[Tuple2[Int,String.原创 2022-03-04 15:08:36 · 107 阅读 · 0 评论 -
leftOuterJoin
leftOuterJoinpackage com.cnic.flink.dataset.codingimport org.apache.flink.api.scala.ExecutionEnvironmentimport org.apache.flink.streaming.api.scala._import scala.collection.mutable.ListBufferobject leftOuterJoin { def main(args: Array[String]): .原创 2022-03-04 14:53:31 · 331 阅读 · 0 评论 -
Aggregate算子求最大值
package com.cnic.flink.dataset.codingimport org.apache.flink.api.java.aggregation.Aggregationsimport org.apache.flink.api.scala.{AggregateDataSet, DataSet, ExecutionEnvironment}import org.apache.flink.streaming.api.scala._import scala.collection.muta.原创 2022-03-04 14:33:32 · 1898 阅读 · 0 评论 -
Flink中窗口的触发条件
Flink中窗口的触发条件:1、watermark时间 >= window_end_time2、在[window_start_time,window_end_time)中有数据存在原创 2022-03-04 09:33:19 · 2013 阅读 · 0 评论 -
Flink结合布隆过滤器(BloomFilter)去重项目实战
测试数据:2021-01-24 15:00:01,user1,act01,view2021-01-24 15:00:02,user1,act01,view2021-01-24 15:00:05,user1,act01,join2021-01-24 15:00:02,user2,act01,view2021-01-24 15:00:05,user2,act01,join2021-01-24 15:00:02,user3,act02,view2021-01-24 15:00:05,user3,原创 2022-03-03 16:10:45 · 1371 阅读 · 0 评论 -
Caused by: java.lang.NoClassDefFoundError: javax/tools/ToolProvider
解决方案:在pom文件中的scala-maven-plugin插件下面加入一个参数:pom.xml配置如下:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http原创 2022-02-23 15:55:09 · 1179 阅读 · 3 评论 -
Flink经典面试题:Flink为什么需要管理状态
去重数据流中的数据有重复,我们想对重复数据去重,需要记录哪些数据已经流入过应用,当新数据流入时,根据已流入过的数据来判断去重。检测检查输入流是否符合某个特定的模式,需要将之前流入的元素以状态的形式缓存下来。比如,判断一个温度传感器数据流中的温度是否在持续上升。聚合对一个时间窗口内的数据进行聚合分析,分析一个小时内水位的情况。更新机器学习模型在线机器学习场景下,需要根据新流入数据不断更新机器学习的模型参数。...原创 2021-08-06 09:29:57 · 359 阅读 · 0 评论 -
静帆科技大数据面试题
一、Flink:1,说说Flink的内存管理是如何做的?2,Flink是如何做容错的?二、Clickhouse:1,请描述一下Clickhouse的应用场景和限制2,Clickhouse为什么这么快?三、kafka:1,kafka producer如何优化打入速度2,kafka是怎么体现消息顺序性的四、HDFS:1,一个DataNode宕机怎么恢复?2,NameNde和SecondaryNameNode的区别与联系五、Hbase:1,hbase宕机如何处理?2,JavaAPI如何原创 2021-05-15 17:12:33 · 314 阅读 · 1 评论