Spark——Java代码同python代码交互（Java端代码）

最新推荐文章于 2024-07-03 00:44:33 发布

SmallSunL

最新推荐文章于 2024-07-03 00:44:33 发布

阅读量1.2k

点赞数 1

分类专栏： spark 文章标签： Spark Java

本文链接：https://blog.csdn.net/SmallSunL/article/details/89393664

版权

spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、同Python整体交互逻辑

如下图所示，

1、Java执行器节点获取数据后，保存至HDFS系统中，并通过kafka发送消息到python端，告知其HDFS地址及相关参数信息。

2、Python端在获取消息后，执行算法，将算法结果保存至新的HDFS地址下，并返回成功标识、报错信息与相关参数信息。

二、Java端源码解析

1、启动spark，并获取数据

SparkConf conf = new SparkConf().setAppName("job").setMaster(
					"local[*]");
SparkContext sqlContext= new SparkContext(conf);
//使用将json文件转换成dataset
Dataset<Row> df ==sqlContext.read.json("C:\\users.json")
//可以看一下取到的数据
df.show()

2、将获取到的Dataset保存至HDFS系统中

//集群环境要设置HADOOP_USER_NAME不然其他人取不到数据
System.setProperty("HADOOP_USER_NAME", "root");
// 将dataset<Row>存入HDFS
df.toDF().write().format("json").save(hdfsAddr);

3、发送报文至kafka

public void sendMsg2Kafka(String value) {
		System.out.println("开始发送：" + value);
		Properties props = new Properties();
		// 配置kafka地址及端口ip:端口
		props.put("bootstrap.servers", kafkaIp);
		// 发送失败后重复3次
		props.put("retries", 3);
		// 发送的key为String
	props.put("key.serializer","org.apache.kafka.common.serialization.StringSerializer");
		// 发送的value为String
	props.put("value.serializer","org.apache.kafka.common.serialization.StringSerializer");
		// 消息发送主题
		String topic = "wordSeg-producer";
		Producer<String, String> procuder = new KafkaProducer<String, String>(props);
		// 构建kafka消息生产者
		ProducerRecord<String, String> msg = new ProducerRecord<String, String>(
				topic, value);
		System.out.println("+=======发送消息：" + msg);
		procuder.send(msg);
		System.out.println("send message over.");
		procuder.close(100, TimeUnit.MILLISECONDS);

	}

4、接收kafka上的消息

public JSONObject getKafkaMsg() {
		Properties props = new Properties();
		// 配置kafka地址及端口ip:端口
		props.put("bootstrap.servers", kafkaIp);
		// 消费者的组id
		props.put("group.id", "test1");
		// 自动提交确认
		props.put("enable.auto.commit", "true");
		// 自动提交间隔
		props.put("auto.commit.interval.ms", "1000");
		// 获取最后一个偏移量
		props.put("auto_offset_reset", "latest");
		// 超时时间
		props.put("session.timeout.ms", "30000");
		// 接收的key为String
	props.put("key.deserializer","org.apache.kafka.common.serialization.StringDeserializer");
		// 接收的value为String
	props.put("value.deserializer","org.apache.kafka.common.serialization.StringDeserializer");
		// 构建消息消费者
		KafkaConsumer<String, String> consumer = new KafkaConsumer<String, String>(props);
		// 订阅主题
		consumer.subscribe(Arrays.asList("wordSeg-consumer"));
		JSONObject json = new JSONObject();
		try {
			// 等待接收数据
			while (true) {
				// 获取数据
		ConsumerRecords<String, String> records = consumer.poll(100);
			for (ConsumerRecord<String, String> record : records) {
			System.out.println("+======偏移量：" + records.count());
			// 将获取到的value值转换成json
			json = JSONObject.fromObject(record.value());
			// 判断json的返回类型
			if ((boolean) json.get("status")) {
				System.out.println(json);
				return json;
			}
			}
			}} finally {
			consumer.close();
		}
	}

5、解析python端发送到kafka上的消息，获取HDFS上的数据

/**
* 解析报文
*/
SparkSession spark = SparkSession.builder().getOrCreate();
// 获取python处理完后的存储数据的HDFS地址
String resPath = responseJson.get("hdfsReAddr").toString();
System.out.println("+=====resPath:" + resPath);
// 通过该地址获取数据
JavaRDD<String> lines = JavaSparkContext.fromSparkContext(
spark.sparkContext()).textFile(resPath);
// javardd转dataset
Dataset<Row> resD = spark.read().json(lines);
resD.show(100, false);