dddddssssa-CSDN博客

原创 spark源码一参数初始化和ｃｏｎtext组成

在启动spark程序时先要进行参数配置，也就是通过new SparkConf()来设置spark程序所需的参数，底层数据结构是 key-value pairs private val settings = new ConcurrentHashMap[String, String]()spark获取参数方式有三种：1、源自于系统参数以spark.参数开头的属性， if (loadDefaults) { loadFromSystemProperties(false) } priv

2020-12-20 15:22:35 150

原创 java代码消费mqtt协议的demo

消费rmq中mqtt协议的demopublic static void main(String[] args) throws MqttException { String clientId = UUIDTool.getRandomUUID(); MqttClient client = new MqttClient("tcp://10.19.141.219:1883", clientId, new MemoryPersistence());

2020-11-30 13:58:12 434

原创 java代码消费kafka数据，并打成jar包，上传至服务器运行

java代码消费kafka数据，并打成jar包，上传至服务器运行 —>>>消费者代码：package kafka.test;import java.util.Collections;import java.util.Properties;import org.apache.kafka.clients.consumer.ConsumerRecord;import org.apache.kafka.clients.consumer.ConsumerRecords;import

2020-11-12 20:14:50 876

原创 spark内存划分

spark内存解读JVM内存管理UnifiedMemoryManager整体结构与代码剖析StorageMemoryPoolExecutionMemoryPool内存角度看划分堆内内存引言很多人对spark初步理解为是基于内存的，但这种说法不够准确，其实应该称spark是充分利用了内存而已，在给定资源规模情况下，通过对内存更细致的划分、动态的调整，来达到更快的运行效率；在编排作业时，你要清楚最多能给你多少内存空间让你缓存数据以及能缓存多少数据，本文主要对spark2.x进行内存分析；JVM内存管

2020-10-30 12:57:51 524

原创 spark与kafka的交互

spark和kafka的事情spark如何与kafka的连接Driver端和Executor端都分别作了什么偏移量是怎么管控的spark如何与kafka的连接本文采用的是Driect连接方式，KafkaUtils.createDirectStream开连接kafka，调用时可以看到两个createDirectStream方法，参数不同，最终都是通过new DirectKafkaInputDStream[K, V](ssc, locationStrategy, consumerStrategy, perP

2020-07-22 23:25:32 1657 1

原创 scala数据格式转换

操作json数据源片段的代码override def source(): DStream[_] = new KafkaDataSource(kconfig, SparkEnv.getStreamingContext()).createKafkaDstream(kconfig.getProducerTopic).filter(_ != null). mapPartitions(messages => { val objectMapper: ObjectMapper = new Objec

2020-07-15 13:45:14 353

dddddssssa的博客