工作后
小nove
这个作者很懒,什么都没留下…
展开
-
idea的批量项目导入__tmp
用图片的形式来表示打开项目目录,选中pom文件,点击递归查询主类原创 2020-03-11 22:50:28 · 521 阅读 · 0 评论 -
kafka实践-分区器-拦截器-消费者-生产者-kafakStream
模拟消费者组三台机器中选择两台设置相同的消费者组设置相同的组id给两台机器group.id=nove开启一个生产者bin/kafka-console-producer.sh \--broker-list hadoop101:9092 --topic second指定配置文件开启两个消费者bin/kafka-console-consumer.sh --bootstra...原创 2020-03-10 20:22:42 · 375 阅读 · 0 评论 -
zookeeper的api操作
导入依赖<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</vers...原创 2020-03-09 20:16:01 · 98 阅读 · 0 评论 -
watermark学习
基本概念在数据流中,由于网络,分布式的原因,会出现数据处理时间误差。结合windows的概念,原定5s进行一次数据的处理设置watermark的值为2,则直到时间戳为7s,12s的数据出现,整体数据进行向下的传递。可以视为一个延迟机制,直到指定的值出现,才进行事件的触发。案例实现定义一个watermark为2s的规则来处理流数据package watermarkimport or...原创 2020-03-06 22:02:36 · 303 阅读 · 0 评论 -
Spark的广播变量
将一些较大的数据集进行广播,不需要每个task都复制一分数据 //将一个数据进行了广播 val value = sc.broadcast(Array(6,7,8,9)) //具体的使用 unit.foreach(x=> { accumulator1.add(x) //在分片的rdd中直接使用被广播了的值 val value1: Arra...原创 2020-02-27 15:35:01 · 101 阅读 · 0 评论 -
Spark的累加器
Sparkb自身的累加器 val conf = new SparkConf().setAppName("jk").setMaster("local") val sc = new SparkContext(conf) val accumulator = sc.longAccumulator //传入array集合,指定两个分片 val unit = sc.ma...原创 2020-02-27 15:10:34 · 126 阅读 · 0 评论 -
spark自定义udf函数与自定义聚合函数
udf函数表现为对传入的数据进行处理后输出//创建session对象val conf = new SparkConf().setMaster("local").setAppName("jjk")val session = SparkSession.builder().config(conf).getOrCreate()//导入隐式转换import session.implicits....原创 2020-02-26 19:20:44 · 367 阅读 · 1 评论