用户标签(一):图计算实现ID_Mapping、Oneid打通数据孤岛_3.spark代码实现oneid mapping 初始化one id-CSDN博客

本文链接：https://blog.csdn.net/weixin_43194923/article/details/107807471

本文介绍了如何使用图计算和Oneid技术进行ID_Mapping，以解决数据孤岛问题。通过示例展示了数据源格式、实现原理，包括生成最大联通图的过程，并提供了代码和启动命令参考。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

图计算实现ID_Mapping、Oneid打通数据孤岛

ID_Mapping与Oneid的作用

ID_Mapping与Oneid的作用

大神告诉我们Oneid能用来做什么

在这里插入图片描述

输入数据源格式样例

样例数据图1
在这里插入图片描述
整理后数据图2

实现原理

联通图
在这里插入图片描述
生成最大联通图

留下耀总的数据给大家练习了

当日代码生成


import java.util.UUID
import cn.scfl.ebt.util.UtilTool
import org.apache.spark.SparkContext
import org.apache.spark.graphx._
import org.apache.spark.sql.SparkSession
import org.spark_project.jetty.util.StringUtil

/**
  * @Author: baierfa
  * @version: v1.0
  * @description: id_mapping 单天实现暂时不加入多天滚动计算 多天计算需要看另一文件YeAndTodayGraphx
  * @Date: 2020-07-05 10:24
  */
object TodayGraphx {
   
  def main(args: Array[String]): Unit = {
   

    //声明环境变量
    val spark = SparkSession
      .builder
      .appName(s"${this.getClass.getName}")
      .master("local[*]")
      .getOrCreate()
    val sc = spark.sparkContext
    val todayPath = "D:\\TESTPATH\\inputpath\\today\\dt=202-07-13"
    val outPutPath="D:\\TESTPATH\\outtpath\\today\\dt=202-07-13"
    val edgeoutPutPath="D:\\TESTPATH\\edgepath\\today\\dt=202-07-13"

   todayIdMapping(spark,sc,todayPath,outPutPath,edgeoutPutPath)
    spark.close()
  }
  
/**
 * 功能描述: <输入今天数据路径 按照文件形式输出到指定路径中 并推出今日图计算点与边集合总个数>
 * 〈使用今日输入数据转换成唯一数字值 图计算之后再将数值转换回明文 生成唯一uuid〉
 * @Param: [spark, sc, todayPath, outPutPath, edgeoutPutPath]
 * @Return: void
 * @Author: baierfa
 * @Date: 2020-08-05 10:18
 */
  def todayIdMapping(spark:SparkSession,sc: SparkC