scala spark dataframe添加序号（id）列

最新推荐文章于 2024-05-23 11:26:34 发布

暮之雪

最新推荐文章于 2024-05-23 11:26:34 发布

阅读量1.5w

点赞数 2

分类专栏： spark 文章标签： scala spark dataframe id 序号

本文链接：https://blog.csdn.net/u013090676/article/details/80379371

版权

spark 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

在spark的开发中，经常会出现需要为dataframe添加id列的地方，特别对于一些需要存到关系型数据库中的结果，话不多说，下面直接上代码。

1、初始化：

        val sparks = SparkSession.builder
                .master("local[4]")
                .appName("test1")
                .getOrCreate()
        val sc = sparks.sparkContext;

2、从mysql中取一组不带id的数创建dataframe

        val mRecord = sparks.read
                .format("jdbc")
                .option("url", "jdbc:mysql://127.0.0.1:3306/spark?user=root&password=root")
                .option("dbtable", "(select water from correlation limit 10000) as record") //数据
                .option("driver","com.mysql.jdbc.Driver")
                .load();
        mRecord.show(false);

结果如下：

3、将dataframe转换为rdd

        val mRdd = mRecord.rdd;
        mRdd.collect().foreach{println};

结果如下：

3、为rdd添加需要列，主要使用zipWithIndex()

        val newRdd = mRdd.map{x => x.toString().substring(1,x.toString().length - 1)}.zipWithIndex();
        newRdd.collect().foreach{println};

结果如下：

4、rdd转回dataframe，注意newRdd中的内容不是string，是tuple

        val rowRdd = newRdd.map(a => Row(a._1.toInt,a._2.toInt));
        val schema = StructType(
            Array(
                StructField("water",IntegerType,true),
                StructField("id",IntegerType,true)
            )
        );
        val resDf = sparks.createDataFrame(rowRdd,schema);
        resDf.show(false);

结果如下：

暮之雪

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
scala spark dataframe添加序号（id）列

在spark的开发中，经常会出现需要为dataframe添加id列的地方，特别对于一些需要存到关系型数据库中的结果，话不多说，下面直接上代码。1、初始化： val sparks = SparkSession.builder .master("local[4]") .appName("test1") ...
复制链接

扫一扫