scala spark dataframe添加序号(id)列

    在spark的开发中,经常会出现需要为dataframe添加id列的地方,特别对于一些需要存到关系型数据库中的结果,话不多说,下面直接上代码。

1、初始化:

        val sparks = SparkSession.builder
                .master("local[4]")
                .appName("test1")
                .getOrCreate()
        val sc = sparks.sparkContext;

2、从mysql中取一组不带id的数创建dataframe

        val mRecord = sparks.read
                .format("jdbc")
                .option("url", "jdbc:mysql://127.0.0.1:3306/spark?user=root&password=root")
                .option("dbtable", "(select water from correlation limit 10000) as record") //数据
                .option("driver","com.mysql.jdbc.Driver")
                .load();
        mRecord.show(false);

结果如下:


3、将dataframe转换为rdd

        val mRdd = mRecord.rdd;
        mRdd.collect().foreach{println};

结果如下:


3、为rdd添加需要列,主要使用zipWithIndex()

        val newRdd = mRdd.map{x => x.toString().substring(1,x.toString().length - 1)}.zipWithIndex();
        newRdd.collect().foreach{println};

结果如下:


4、rdd转回dataframe,注意newRdd中的内容不是string,是tuple

        val rowRdd = newRdd.map(a => Row(a._1.toInt,a._2.toInt));
        val schema = StructType(
            Array(
                StructField("water",IntegerType,true),
                StructField("id",IntegerType,true)
            )
        );
        val resDf = sparks.createDataFrame(rowRdd,schema);
        resDf.show(false);

结果如下:


  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值