大数据课程——Spark SQL
实验内容以及要求
现有一份汽车销售记录(文件名:Cars.csv),销售记录包括时间、地点、邮政编码、车辆类型等信息,每条记录信息包含39项数据项。按步骤完成如下操作(建议在Spark-shell中完成):
(1)将汽车销售记录上传至HDFS;
(2)使用编程方式定义RDD模式,提取月、市、区县、品牌、车辆类型、使用性质和数量7列,并定义相应Schema;
(3)将(2)的结果以json格式保存至HDFS;
(4)读取该json文件,构建DataFrame;
(5)在DataFrame中使用SQL语句实现如下查询:
- 统计各汽车品牌的销量,并按销量从高到低排序;
- 统计各月各汽车品牌的销量;
- 统计各市的汽车销量,并按销量从低到高排序;
- 统计不同城市不同车辆类型的销量;
- 统计各城市汽车销量最大的区县;
- 统计1~6月非营运车辆销量最大的前3大品牌。
问题总结
课程提供的源数据有问题
本次实验数据不知道哪里有问题,直接使用的话,在存储或者查询的时候,总会报错,说是有一个“客车”String被填