大数据课程——Spark SQL

最新推荐文章于 2024-06-18 08:45:00 发布

冰冷灬泡面

最新推荐文章于 2024-06-18 08:45:00 发布

阅读量1k

点赞数 3

分类专栏：大数据课程学习文章标签： big data spark sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43334251/article/details/125281669

版权

大数据课程——Spark SQL

实验内容以及要求

现有一份汽车销售记录（文件名：Cars.csv），销售记录包括时间、地点、邮政编码、车辆类型等信息，每条记录信息包含39项数据项。按步骤完成如下操作（建议在Spark-shell中完成）：
（1）将汽车销售记录上传至HDFS；
（2）使用编程方式定义RDD模式，提取月、市、区县、品牌、车辆类型、使用性质和数量7列，并定义相应Schema；
（3）将（2）的结果以json格式保存至HDFS；
（4）读取该json文件，构建DataFrame；
（5）在DataFrame中使用SQL语句实现如下查询：

统计各汽车品牌的销量，并按销量从高到低排序；

统计各月各汽车品牌的销量；

统计各市的汽车销量，并按销量从低到高排序；

统计不同城市不同车辆类型的销量；

统计各城市汽车销量最大的区县；

统计1~6月非营运车辆销量最大的前3大品牌。

问题总结

课程提供的源数据有问题

本次实验数据不知道哪里有问题，直接使用的话，在存储或者查询的时候，总会报错，说是有一个“客车”String被填

最低0.47元/天解锁文章

冰冷灬泡面

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
大数据课程——Spark SQL

大数据课程——Spark SQL 练习
复制链接

扫一扫

专栏目录

冰冷灬泡面 CSDN认证博客专家 CSDN认证企业博客

码龄6年

39: 原创

10万+: 周排名

150万+: 总排名

1万+: 访问

: 等级

433: 积分

38: 粉丝

15: 获赞

11: 评论

100: 收藏

私信

关注

热门文章

分类专栏

大数据课程学习 14篇
补题目 20篇
codeforces 9篇
笔记 1篇
刷题 2篇

最新评论

大数据课程——MapReduce编程综合应用（2）
Stellaris_L: 递减（x，递增（√
大数据课程——MapReduce编程综合应用（2）
Stellaris_L: 第二问的结果看似是在递减，实际上是因为数据被覆盖累加了，也就是变成了一个前缀和。在博主的reduce中context.write() 和 map.put() 所使用的变量 sum 是一样的，然而context.write()的赋值在 map.put() 之后，这样导致之前的月份的和也算在当前的品牌中。要将context.write()放在map.put()之前或将 map.put() 之前的 if改掉： [code=java] if(rankMap.containsKey(month) == true){ int tmp = sum + rankMap.get(month); rankMap.put(month, tmp); }else{ rankMap.put(month, sum); } [/code] 将tmp写外面可以短几行。
大数据课程——MapReduce编程综合应用（1）
Yannis111: 浩浩子真棒啊
Spark Streaming 作业练习
冰冷灬泡面: ????
Spark Streaming 作业练习
铅笔_orz: 浩浩你好棒！！！！！！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。