大数据Spark技术数据分析综合实验:出租车数据分析

Spark出租车数据实验

【实验目的】

主要使用出租车上传的GPS点作为分析对象,使用Kmeans把出租车轨迹点聚类,找出出租车出现密集的地方,并用地图的方式进行可视化展示

【实验原理】

(1)数据的准备。
(2)创建DataFrame。
(3)使用kmeans聚类。
(4)聚类结果可视化。

【实验环境】

操作系统:Linux
开发环境:pyspark命令行

【实验步骤】

1.数据加载

数据路径:
http://10.90.3.2/HUP/spark/taxi.csv

终端下载数据

cd /home/ubuntu
wget http://10.90.3.2/HUP/spark/taxi.csv

该实验采用数据为出租车载客时GPS记录数据集,数据格式为CSV,CSV格式是数据分析中常见的一种数据格式。

数据共4列,列之间以“,”分割。

tid:出租车编号 lat:维度 lon:经度 time:时间戳
在这里插入图片描述
安装软件依赖

pip install numpy

在这里插入图片描述

2.数据分析

(1)创建DataFrame
首先终端执行如下命令进入交互式命令行:

pyspark

使用textFile函数读取csv文件创建taxi_data,然后使用map算子操作将按照逗号隔开的文本创建RDD。

taxi_data = sc.textFile("/home/ubuntu/taxi.csv")
taxi_rdd=taxi_data.map(lambda line:line.split(','))

创建矢量RDD,矢量两个参数分别为纬度和经度。在下文的

  • 12
    点赞
  • 133
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值