Spark出租车数据实验
【实验目的】
主要使用出租车上传的GPS点作为分析对象,使用Kmeans把出租车轨迹点聚类,找出出租车出现密集的地方,并用地图的方式进行可视化展示
【实验原理】
(1)数据的准备。
(2)创建DataFrame。
(3)使用kmeans聚类。
(4)聚类结果可视化。
【实验环境】
操作系统:Linux
开发环境:pyspark命令行
【实验步骤】
1.数据加载
数据路径:
http://10.90.3.2/HUP/spark/taxi.csv
终端下载数据
cd /home/ubuntu
wget http://10.90.3.2/HUP/spark/taxi.csv
该实验采用数据为出租车载客时GPS记录数据集,数据格式为CSV,CSV格式是数据分析中常见的一种数据格式。
数据共4列,列之间以“,”分割。
tid:出租车编号 lat:维度 lon:经度 time:时间戳
安装软件依赖
pip install numpy
2.数据分析
(1)创建DataFrame
首先终端执行如下命令进入交互式命令行:
pyspark
使用textFile函数读取csv文件创建taxi_data,然后使用map算子操作将按照逗号隔开的文本创建RDD。
taxi_data = sc.textFile("/home/ubuntu/taxi.csv")
taxi_rdd=taxi_data.map(lambda line:line.split(','))
创建矢量RDD,矢量两个参数分别为纬度和经度。在下文的