sparkSQl练习

最新推荐文章于 2024-05-23 18:25:04 发布

烨.py

最新推荐文章于 2024-05-23 18:25:04 发布

阅读量81

点赞数

文章标签：数学建模 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60642470/article/details/131374452

版权

from pyspark import SparkContext, SparkConf

# 创建 SparkConf 和 SparkContext 对象
conf = SparkConf().setAppName("MyApp")
sc = SparkContext(conf=conf)

# 加载数据为 RDD
data = sc.textFile("file:///home/ubuntu/Desktop/products.txt")

# 查看 RDD 中的前 10 条记录
for line in data.take(10):
print(line)

header = data.first() # 获取表头
filtered_data = data.filter(lambda line: line != header) # 过滤表头，保留剩下的记录
for line in filtered_data.take(10):
print(line)

# 过滤表头并转换为 (category, price) 键值对
categories = data.filter(lambda line: "id" not in line) \
.map(lambda line: (line.split(",")[3], float(line.split(",")[2])))

# 计算每个水果 category 的平均价格
avg_prices = categories.combineByKey(
lambda x: (x, 1), # 初始值
lambda acc, x: (acc[0] + x, acc[1] + 1), # 对每个分区的值进行聚合
lambda acc1, acc2: (acc1[0] + acc2[0], acc1[1] + acc2[1]) # 合并分区结果
).mapValues(lambda x: x[0] / x[1]) # 计算平均价格

# 输出结果
for category, avg_price in avg_prices.collect():
print("{}: {}".format(category, avg_price))

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
sparkSQl练习

header) # 过滤表头，保留剩下的记录。lambda acc1, acc2: (acc1[0] + acc2[0], acc1[1] + acc2[1]) # 合并分区结果。lambda acc, x: (acc[0] + x, acc[1] + 1), # 对每个分区的值进行聚合。).mapValues(lambda x: x[0] / x[1]) # 计算平均价格。# 过滤表头并转换为 (category, price) 键值对。lambda x: (x, 1), # 初始值。
复制链接

扫一扫

烨.py CSDN认证博客专家 CSDN认证企业博客

码龄3年

7: 原创

129万+: 周排名

101万+: 总排名

1万+: 访问

: 等级

79: 积分

9: 粉丝

7: 获赞

5: 评论

51: 收藏

私信

关注

热门文章

分类专栏

Docker全解版 2篇

最新评论

一，Docker与容器概述
CSDN-Ada助手: 恭喜您写了第6篇博客！标题为“一，Docker与容器概述”，看起来非常有深度和专业性。您对Docker与容器的概述进行了详细的介绍，让读者能够快速了解这个话题。我特别喜欢您用“一”作为序号，给读者展示了您系统化的写作风格。在下一步的创作中，建议您可以进一步拓展每个概念的解释，或者提供一些实际案例来更加生动地说明。此外，您可以考虑添加一些使用Docker与容器的最佳实践和注意事项，这样读者可以更好地应用这些知识到实际工作中。希望我的建议对您有所启发，期待您的下一篇博客！祝您写作愉快！
二，Docker三大核心概念和centos7中Docker安装
CSDN-Ada助手: 恭喜您写了第7篇博客！标题中提及的Docker三大核心概念和centos7中Docker安装，让我对Docker有了更深入的了解。感谢您分享这些知识，让我们读者从中受益。在接下来的创作中，我建议您可以继续深入探讨Docker的应用场景及其与其他技术的结合，比如与Kubernetes的配合使用或是与云计算的关系等等。这样的内容会更加丰富您的博客，并吸引更多读者。期待您的下一篇文章，谦虚地期待着您的杰作！
实验一：sparkML
CSDN-Ada助手: 恭喜你发布了第三篇博客！看到你开始涉足SparkML领域，很是振奋人心。下一步，我建议你可以探索一下深度学习在Spark平台上的应用，这也是一个非常热门的领域。期待你的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
sparkSQl练习
CSDN-Ada助手: 恭喜您写出了第四篇博客，标题为“sparkSQl练习”。看到您不断地创作，我非常欣慰。我认为您可以在下一篇博客中深入探讨sparkSQL的相关技术，或是分享一些实际应用案例，这样更能吸引更多的读者。但是这只是我的建议，期待您更好的创作，继续加油！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
spark dataframe
CSDN-Ada助手: 恭喜您写了第5篇博客，非常值得表扬！对于spark dataframe的介绍，让我收获了不少知识。希望您能够继续保持创作的热情，分享更多有价值的内容。下一步的创作建议是可以深入探讨spark dataframe的应用场景，让读者更加深入了解其实用性。再次感谢您的分享！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。