大数据Spark技术数据分析综合实验：出租车数据分析

最新推荐文章于 2024-06-11 11:08:08 发布

会涂色的雨

最新推荐文章于 2024-06-11 11:08:08 发布

阅读量1w

点赞数 12

文章标签： spark 大数据可视化 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45514064/article/details/107211915

版权

Spark出租车数据实验

目录

Spark出租车数据实验

【实验目的】

主要使用出租车上传的GPS点作为分析对象，使用Kmeans把出租车轨迹点聚类，找出出租车出现密集的地方，并用地图的方式进行可视化展示

【实验原理】

（1）数据的准备。
（2）创建DataFrame。
（3）使用kmeans聚类。
（4）聚类结果可视化。

【实验环境】

操作系统：Linux
开发环境：pyspark命令行

【实验步骤】

1.数据加载

数据路径：
http://10.90.3.2/HUP/spark/taxi.csv

终端下载数据

cd /home/ubuntu
wget http://10.90.3.2/HUP/spark/taxi.csv

该实验采用数据为出租车载客时GPS记录数据集，数据格式为CSV，CSV格式是数据分析中常见的一种数据格式。

数据共4列，列之间以“,”分割。

tid：出租车编号 lat：维度 lon：经度 time：时间戳
在这里插入图片描述
安装软件依赖

pip install numpy

在这里插入图片描述

2.数据分析

（1）创建DataFrame
首先终端执行如下命令进入交互式命令行：

pyspark

使用textFile函数读取csv文件创建taxi_data，然后使用map算子操作将按照逗号隔开的文本创建RDD。

taxi_data = sc.textFile("/home/ubuntu/taxi.csv")
taxi_rdd=taxi_data.map(lambda line:line.split(','))

创建矢量RDD，矢量两个参数分别为纬度和经度。在下文的聚类函数中需要该格式RDD进行聚类。

from  pyspark.ml.linalg  import  Vectors
taxi_row=taxi_rdd.map(lambda x: (Vectors.dense (x[1

最低0.47元/天解锁文章

会涂色的雨

关注

12
点赞
踩
139

收藏

觉得还不错? 一键收藏
4
评论
大数据Spark技术数据分析综合实验：出租车数据分析

Spark出租车数据实验目录Spark出租车数据实验【实验目的】【实验原理】【实验环境】【实验步骤】1.数据加载2.数据分析3、模型构建4.可视化展现【实验目的】主要使用出租车上传的GPS点作为分析对象，使用Kmeans把出租车轨迹点聚类，找出出租车出现密集的地方，并用地图的方式进行可视化展示【实验原理】（1）数据的准备。（2）创建DataFrame。（3）使用kmeans聚类。（4）聚类结果可视化。【实验环境】操作系统：Linux开发环境：pyspark命令行【实验步骤】1.数据
复制链接

扫一扫

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。