Hadoop spark sql项目实践
最近分布式计算结课做了一个小的实验报告,分享一下。
操作系统:ubuntu64 Hadoop
实验过程
1. 准备数据集,我的数据集是网上下载的相机记录一些地方交通违规次数数据集。(cameras.csv)
部分数据截图:
把本地文件系统中的cameras.csv上传到分布式文件系统HDFS中(放到hadoop用户目录下):
3.1 导包:
3.2 初始化sparksession
3.3 制作表头
3.4 生成DataFrame,从hdfs上读取
3.5 RDD转DataFrames(反射转
原创
2020-06-18 22:53:36 ·
309 阅读 ·
0 评论