Spark——Java代码同python代码交互(Java端代码)

 

一、同Python整体交互逻辑

如下图所示,

1、Java执行器节点获取数据后,保存至HDFS系统中,并通过kafka发送消息到python端,告知其HDFS地址及相关参数信息。

2、Python端在获取消息后,执行算法,将算法结果保存至新的HDFS地址下,并返回成功标识、报错信息与相关参数信息。

                            

二、Java端源码解析

1、启动spark,并获取数据

SparkConf conf = new SparkConf().setAppName("job").setMaster(
					"local[*]");
SparkContext sqlContext= new SparkContext(conf);
//使用将json文件转换成dataset
Dataset<Row> df ==sqlContext.read.json("C:\\users.json")
//可以看一下取到的数据
df.show()

2、将获取到的Dataset保存至HDFS系统中

//集群环境要设置HADOOP_USER_NAME不然其他人取不到数据
System.setProperty("HADOOP_USER_NAME", "root");
// 将dataset<Row>存入HDFS
df.toDF().write().format("json").save(hdfsAddr);

3、发送报文至kafka

public void sendMsg2Kafka(String value) {
		System.out.println("开始发送:" + value);
		Properties props = new Properties();
		// 配置kafka地址及端口ip:端口
		props.put("bootstrap.servers", kafkaIp);
		// 发送失败后重复3次
		props.put("retries", 3);
		// 发送的key为String
	props.put("key.serializer","org.apache.kafka.common.serialization.StringSerializer");
		// 发送的value为String
	props.put("value.serializer","org.apache.kafka.common.serialization.StringSerializer");
		// 消息发送主题
		String topic = "wordSeg-producer";
		Producer<String, String> procuder = new KafkaProducer<String, String>(props);
		// 构建kafka消息生产者
		ProducerRecord<String, String> msg = new ProducerRecord<String, String>(
				topic, value);
		System.out.println("+=======发送消息:" + msg);
		procuder.send(msg);
		System.out.println("send message over.");
		procuder.close(100, TimeUnit.MILLISECONDS);

	}

4、接收kafka上的消息

public JSONObject getKafkaMsg() {
		Properties props = new Properties();
		// 配置kafka地址及端口ip:端口
		props.put("bootstrap.servers", kafkaIp);
		// 消费者的组id
		props.put("group.id", "test1");
		// 自动提交确认
		props.put("enable.auto.commit", "true");
		// 自动提交间隔
		props.put("auto.commit.interval.ms", "1000");
		// 获取最后一个偏移量
		props.put("auto_offset_reset", "latest");
		// 超时时间
		props.put("session.timeout.ms", "30000");
		// 接收的key为String
	props.put("key.deserializer","org.apache.kafka.common.serialization.StringDeserializer");
		// 接收的value为String
	props.put("value.deserializer","org.apache.kafka.common.serialization.StringDeserializer");
		// 构建消息消费者
		KafkaConsumer<String, String> consumer = new KafkaConsumer<String, String>(props);
		// 订阅主题
		consumer.subscribe(Arrays.asList("wordSeg-consumer"));
		JSONObject json = new JSONObject();
		try {
			// 等待接收数据
			while (true) {
				// 获取数据
		ConsumerRecords<String, String> records = consumer.poll(100);
			for (ConsumerRecord<String, String> record : records) {
			System.out.println("+======偏移量:" + records.count());
			// 将获取到的value值转换成json
			json = JSONObject.fromObject(record.value());
			// 判断json的返回类型
			if ((boolean) json.get("status")) {
				System.out.println(json);
				return json;
			}
			}
			}} finally {
			consumer.close();
		}
	}


5、解析python端发送到kafka上的消息,获取HDFS上的数据

/**
* 解析报文
*/
SparkSession spark = SparkSession.builder().getOrCreate();
// 获取python处理完后的存储数据的HDFS地址
String resPath = responseJson.get("hdfsReAddr").toString();
System.out.println("+=====resPath:" + resPath);
// 通过该地址获取数据
JavaRDD<String> lines = JavaSparkContext.fromSparkContext(
spark.sparkContext()).textFile(resPath);
// javardd转dataset
Dataset<Row> resD = spark.read().json(lines);
resD.show(100, false);

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值