- 博客(6)
- 收藏
- 关注
原创 spark源码一参数初始化和context组成
在启动spark程序时先要进行参数配置,也就是通过new SparkConf()来设置spark程序所需的参数,底层数据结构是 key-value pairs private val settings = new ConcurrentHashMap[String, String]()spark获取参数方式有三种:1、源自于系统参数 以spark.参数开头的属性, if (loadDefaults) { loadFromSystemProperties(false) } priv
2020-12-20 15:22:35 150
原创 java代码消费mqtt协议的demo
消费rmq中mqtt协议的demopublic static void main(String[] args) throws MqttException { String clientId = UUIDTool.getRandomUUID(); MqttClient client = new MqttClient("tcp://10.19.141.219:1883", clientId, new MemoryPersistence());
2020-11-30 13:58:12 434
原创 java代码消费kafka数据,并打成jar包,上传至服务器运行
java代码消费kafka数据,并打成jar包,上传至服务器运行 —>>>消费者代码:package kafka.test;import java.util.Collections;import java.util.Properties;import org.apache.kafka.clients.consumer.ConsumerRecord;import org.apache.kafka.clients.consumer.ConsumerRecords;import
2020-11-12 20:14:50 876
原创 spark内存划分
spark内存解读JVM内存管理UnifiedMemoryManager整体结构与代码剖析StorageMemoryPoolExecutionMemoryPool内存角度看划分堆内内存引言很多人对spark初步理解为是基于内存的,但这种说法不够准确,其实应该称spark是充分利用了内存而已,在给定资源规模情况下,通过对内存更细致的划分、动态的调整,来达到更快的运行效率;在编排作业时,你要清楚最多能给你多少内存空间让你缓存数据以及能缓存多少数据,本文主要对spark2.x进行内存分析;JVM内存管
2020-10-30 12:57:51 524
原创 spark与kafka的交互
spark和kafka的事情spark如何与kafka的连接Driver端和Executor端都分别作了什么偏移量是怎么管控的spark如何与kafka的连接本文采用的是Driect连接方式,KafkaUtils.createDirectStream开连接kafka,调用时可以看到两个createDirectStream方法,参数不同,最终都是通过new DirectKafkaInputDStream[K, V](ssc, locationStrategy, consumerStrategy, perP
2020-07-22 23:25:32 1657 1
原创 scala数据格式转换
操作json数据源片段的代码override def source(): DStream[_] = new KafkaDataSource(kconfig, SparkEnv.getStreamingContext()).createKafkaDstream(kconfig.getProducerTopic).filter(_ != null). mapPartitions(messages => { val objectMapper: ObjectMapper = new Objec
2020-07-15 13:45:14 353
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人