一、同Python整体交互逻辑
如下图所示,
1、Java执行器节点获取数据后,保存至HDFS系统中,并通过kafka发送消息到python端,告知其HDFS地址及相关参数信息。
2、Python端在获取消息后,执行算法,将算法结果保存至新的HDFS地址下,并返回成功标识、报错信息与相关参数信息。
二、Java端源码解析
1、启动spark,并获取数据
SparkConf conf = new SparkConf().setAppName("job").setMaster(
"local[*]");
SparkContext sqlContext= new SparkContext(conf);
//使用将json文件转换成dataset
Dataset<Row> df ==sqlContext.read.json("C:\\users.json")
//可以看一下取到的数据
df.show()
2、将获取到的Dataset保存至HDFS系统中
//集群环境要设置HADOOP_USER_NAME不然其他人取不到数据
System.setProperty("HADOOP_USER_NAME", "root");
// 将dataset<Row>存入HDFS
df.toDF().write().format("json").save(hdfsAddr);
3、发送报文至kafka
public void sendMsg2Kafka(String value) {
System.out.println("开始发送:" + value);
Properties props = new Properties();
// 配置kafka地址及端口ip:端口
props.put("bootstrap.servers", kafkaIp);
// 发送失败后重复3次
props.put("retries", 3);
// 发送的key为String
props.put("key.serializer","org.apache.kafka.common.serialization.StringSerializer");
// 发送的value为String
props.put("value.serializer","org.apache.kafka.common.serialization.StringSerializer");
// 消息发送主题
String topic = "wordSeg-producer";
Producer<String, String> procuder = new KafkaProducer<String, String>(props);
// 构建kafka消息生产者
ProducerRecord<String, String> msg = new ProducerRecord<String, String>(
topic, value);
System.out.println("+=======发送消息:" + msg);
procuder.send(msg);
System.out.println("send message over.");
procuder.close(100, TimeUnit.MILLISECONDS);
}
4、接收kafka上的消息
public JSONObject getKafkaMsg() {
Properties props = new Properties();
// 配置kafka地址及端口ip:端口
props.put("bootstrap.servers", kafkaIp);
// 消费者的组id
props.put("group.id", "test1");
// 自动提交确认
props.put("enable.auto.commit", "true");
// 自动提交间隔
props.put("auto.commit.interval.ms", "1000");
// 获取最后一个偏移量
props.put("auto_offset_reset", "latest");
// 超时时间
props.put("session.timeout.ms", "30000");
// 接收的key为String
props.put("key.deserializer","org.apache.kafka.common.serialization.StringDeserializer");
// 接收的value为String
props.put("value.deserializer","org.apache.kafka.common.serialization.StringDeserializer");
// 构建消息消费者
KafkaConsumer<String, String> consumer = new KafkaConsumer<String, String>(props);
// 订阅主题
consumer.subscribe(Arrays.asList("wordSeg-consumer"));
JSONObject json = new JSONObject();
try {
// 等待接收数据
while (true) {
// 获取数据
ConsumerRecords<String, String> records = consumer.poll(100);
for (ConsumerRecord<String, String> record : records) {
System.out.println("+======偏移量:" + records.count());
// 将获取到的value值转换成json
json = JSONObject.fromObject(record.value());
// 判断json的返回类型
if ((boolean) json.get("status")) {
System.out.println(json);
return json;
}
}
}} finally {
consumer.close();
}
}
5、解析python端发送到kafka上的消息,获取HDFS上的数据
/**
* 解析报文
*/
SparkSession spark = SparkSession.builder().getOrCreate();
// 获取python处理完后的存储数据的HDFS地址
String resPath = responseJson.get("hdfsReAddr").toString();
System.out.println("+=====resPath:" + resPath);
// 通过该地址获取数据
JavaRDD<String> lines = JavaSparkContext.fromSparkContext(
spark.sparkContext()).textFile(resPath);
// javardd转dataset
Dataset<Row> resD = spark.read().json(lines);
resD.show(100, false);