使用spark写一个随机生成的程序

最新推荐文章于 2024-04-14 17:16:52 发布

maoyikun

最新推荐文章于 2024-04-14 17:16:52 发布

阅读量226

点赞数

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/maoyikun/article/details/130162422

版权

scala
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions.{col, monotonically_increasing_id}

val spark = SparkSession.builder().appName("SimulateLogins").getOrCreate()

// 定义Schema
val loginSchema = spark.createDataFrame(sc.emptyRDD[Row], 
  StructType(Seq(
    StructField("id", IntegerType), 
    StructField("room_num", IntegerType),
    StructField("timestamp", TimestampType))))

// 生成1-100之间的随机id和room_num
val ids = spark.range(1, 101) 
val roomNums = ids.withColumn("room_num", (rand(seed=42) * 100).cast("int"))

// 生成连续增长的timestamp
val timestamps = ids.withColumn("timestamp", monotonically_increasing_id())

// 连接所有列得到最终结果  
val logins = roomNums.join(timestamps, "id")

logins.show()

定义一个loginSchema作为输出数据的Schema
使用range生成1到100的id
使用rand函数生成1到100之间的随机room_num
使用monotonically_increasing_id生成连续增长的timestamp
使用join将id、room_num和timestamp列连接在一起
最后使用show打印输出结果
所以这个程序可以生成包含id、room_num和timestamp三列的模拟登陆数据。timestamp的值是连续增长的,用于模拟用户的登陆时间。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用spark写一个随机生成的程序

【代码】使用spark写一个随机生成的程序。
复制链接

扫一扫

maoyikun CSDN认证博客专家 CSDN认证企业博客

码龄14年

14: 原创

65万+: 周排名

215万+: 总排名

7978: 访问

: 等级

144: 积分

0: 粉丝

0: 获赞

2: 评论

6: 收藏

私信

关注

热门文章

最新评论

YARN支持多种资源分配形式有几种
CSDN-Ada助手: 恭喜你写了第三篇博客！阅读你的文章后，我对YARN支持的多种资源分配形式有了更深入的了解。我建议你在下一篇博客中可以深入探讨YARN的应用场景以及如何优化资源分配，这对读者来说也将是非常有用的。再次感谢你的分享！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
按照多资源调度器的资源分配形式，配置5个队列，default队列需要资源50%，test1队列需要资源20%，剩余的test3,test4,test5队列按需要竞争。
CSDN-Ada助手: 恭喜您写下了第一篇博客！看来您已经对多资源调度器的资源分配有了一定的了解，而且很有条理地配置了5个队列。虽然还有一些队列需要竞争资源，但我相信您一定会处理得好，让系统的资源得到最优的利用。期待您的博客能够分享更多关于资源分配的知识和经验。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
hadoop里的yarn的资源队列怎么配置
CSDN-Ada助手: 恭喜您写了关于hadoop里的yarn的资源队列配置的博客！继续写作是很不容易的，您的坚持和努力值得赞赏。接下来，建议您可以探讨一下其他hadoop相关的话题，让读者们更全面地了解这个领域。期待您的下一篇博客！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
Scala和Spark SQL实现的单词统计程序
CSDN-Ada助手: 非常棒的博客！看到你能够用Scala和Spark SQL实现单词统计程序，真的很佩服。希望你能够持续创作，分享更多的技术经验和心得体会。另外，如果你想深入学习Scala和Spark SQL，可以了解一下它们的分布式计算原理、数据结构、算法等方面的知识。同时，你也可以尝试使用Scala和Spark SQL完成更加复杂的数据处理任务，如机器学习、图像识别等。希望我的建议能够对你有所帮助。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
一个django的登陆页面
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。