使用spark写一个随机生成的程序

scala
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions.{col, monotonically_increasing_id}

val spark = SparkSession.builder().appName("SimulateLogins").getOrCreate()

// 定义Schema
val loginSchema = spark.createDataFrame(sc.emptyRDD[Row], 
  StructType(Seq(
    StructField("id", IntegerType), 
    StructField("room_num", IntegerType),
    StructField("timestamp", TimestampType))))

// 生成1-100之间的随机id和room_num
val ids = spark.range(1, 101) 
val roomNums = ids.withColumn("room_num", (rand(seed=42) * 100).cast("int"))

// 生成连续增长的timestamp
val timestamps = ids.withColumn("timestamp", monotonically_increasing_id())

// 连接所有列得到最终结果  
val logins = roomNums.join(timestamps, "id")

logins.show()
  1. 定义一个loginSchema作为输出数据的Schema
  2. 使用range生成1到100的id
  3. 使用rand函数生成1到100之间的随机room_num
  4. 使用monotonically_increasing_id生成连续增长的timestamp
  5. 使用join将id、room_num和timestamp列连接在一起
  6. 最后使用show打印输出结果
    所以这个程序可以生成包含id、room_num和timestamp三列的模拟登陆数据。timestamp的值是连续增长的,用于模拟用户的登陆时间。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值