Hadoop spark sql项目实践

最新推荐文章于 2024-01-25 01:55:43 发布

zhangzemin13

最新推荐文章于 2024-01-25 01:55:43 发布

阅读量300

点赞数

分类专栏： Hadoop spark 文章标签： hadoop spark hdfs 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41501000/article/details/106844968

版权

spark 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

0 篇文章 0 订阅

订阅专栏

最近分布式计算结课做了一个小的实验报告，分享一下。
操作系统：ubuntu64 Hadoop

实验过程
1．准备数据集，我的数据集是网上下载的相机记录一些地方交通违规次数数据集。（cameras.csv）
部分数据截图：
在这里插入图片描述

把本地文件系统中的cameras.csv上传到分布式文件系统HDFS中（放到hadoop用户目录下）：

在这里插入图片描述

3.1 导包：
在这里插入图片描述

3.2 初始化sparksession
在这里插入图片描述

3.3 制作表头
在这里插入图片描述

3.4 生成DataFrame,从hdfs上读取
在这里插入图片描述

3.5 RDD转DataFrames(反射转换)
在这里插入图片描述

3.6 转换为df
在这里插入图片描述

3.7 注册为临时表cameras

在这里插入图片描述

Spark SQL操作
4.1 查询所有

4.2 查询违规次数为91次的数据
在这里插入图片描述

4.3 查询违规次数小于一百次的数据
在这里插入图片描述

4.4查询违规地点经纬以42开头的数据
在这里插入图片描述

4.5 以违规次数降序排序
在这里插入图片描述

4.6 复合查询
满足：执行主语句查询所有
在这里插入图片描述
不满足：查询为空

在这里插入图片描述

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hadoop spark sql项目实践

最近分布式计算结课做了一个小的实验报告，分享一下。操作系统：ubuntu64 Hadoop实验过程1．准备数据集，我的数据集是网上下载的相机记录一些地方交通违规次数数据集。（cameras.csv）部分数据截图：把本地文件系统中的cameras.csv上传到分布式文件系统HDFS中（放到hadoop用户目录下）：3.1 导包：3.2 初始化sparksession3.3 制作表头3.4 生成DataFrame,从hdfs上读取3.5 RDD转DataFrames(反射转
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。