Hadoop spark sql项目实践

最近分布式计算结课做了一个小的实验报告,分享一下。
操作系统:ubuntu64 Hadoop

实验过程
1. 准备数据集,我的数据集是网上下载的相机记录一些地方交通违规次数数据集。(cameras.csv)
部分数据截图:
在这里插入图片描述

  1. 把本地文件系统中的cameras.csv上传到分布式文件系统HDFS中(放到hadoop用户目录下):

在这里插入图片描述

3.1 导包:
在这里插入图片描述

3.2 初始化sparksession
在这里插入图片描述

3.3 制作表头
在这里插入图片描述

3.4 生成DataFrame,从hdfs上读取
在这里插入图片描述

3.5 RDD转DataFrames(反射转换)
在这里插入图片描述

3.6 转换为df
在这里插入图片描述

3.7 注册为临时表cameras

在这里插入图片描述

  1. Spark SQL操作
    4.1 查询所有
    在这里插入图片描述

4.2 查询违规次数为91次的数据
在这里插入图片描述

4.3 查询违规次数小于一百次的数据
在这里插入图片描述

4.4查询违规地点经纬以42开头的数据
在这里插入图片描述

4.5 以违规次数降序排序
在这里插入图片描述

4.6 复合查询
满足:执行主语句查询所有
在这里插入图片描述
不满足:查询为空

在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值