python spark进行大数据分析_基于Pycharm的Spark大数据分析

最新推荐文章于 2024-05-10 16:58:52 发布

weixin_39606244

最新推荐文章于 2024-05-10 16:58:52 发布

阅读量972

点赞数 1

文章标签： python spark进行大数据分析

问题重述

能够读取给定的数据文件

出租车GPS数据文件（taxi_gps.txt）

北京区域中心坐标及半径数据文件(district.txt)

能够输出以下统计信息

A：该出租车GPS数据文件（taxi_gps.txt）包含多少量车？

B：北京每个城区的车辆位置点数（每辆车有多个位置点，允许重复）

开发环境:

开发软件 Pycharm

开发语言:Python

系统macOS Mojave

Spark版本 spark-2.1.1-bin-hadoop2.7

Scala版本Scala-2.10.4

Python版本Python3.7

实验原理

输出A：

以第一列统计车辆数，去重

输出B：

1.从(district.txt)文件中取第一个区的记录，获得其名称D1、中心坐标M(x0,y0)和半径r；

2.从（taxi_gps.txt）中获取第一条位置点记录，获得其坐标N(x1,y1)

3.利用欧几里得距离计算公式计算点M和N的距离dis，如果dis

4.继续从2开始循环，获得第二个位置记录；直至所有记录遍历完。

5.继续从1开始循环，获得第二个区的记录

数据说明

待统计区域中心数据格式

区域名称：北京城区拼音，例：haidianqu, chaoyangqu, dongchengqu

区域中心GPS经度：格式ddd.ddddddd，以度为单位。

区域中心GPS纬度：格式dd.ddddddd，以度为单位。

区域半径：格式dd，以km为单位

出租车GPS数据格式说明

数据以ASCII文本表示，以逗号为分隔符，以回车换行符(0x0D 0x0A)结尾。数据项及顺序：车辆标识、触发事件、运营状态、GPS时间、GPS经度、GPS纬度,、GPS速度、GPS方向、GPS状态

车辆标识：6个字符

触发事件：0=变空车，1=变载客，2=设防，3=撤防，4=其它

运营状态：0=空车，1=载客，2=驻车，3=停运，4=其它

GPS时间：格式yyyymmddhhnnss，北京时间

GPS经度：格式ddd.ddddddd，以度为单位。

GP

最低0.47元/天解锁文章

weixin_39606244

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
python spark进行大数据分析_基于Pycharm的Spark大数据分析

问题重述能够读取给定的数据文件出租车GPS数据文件（taxi_gps.txt）北京区域中心坐标及半径数据文件(district.txt)能够输出以下统计信息A：该出租车GPS数据文件（taxi_gps.txt）包含多少量车？B：北京每个城区的车辆位置点数（每辆车有多个位置点，允许重复）开发环境:开发软件 Pycharm开发语言:Python系统macOS MojaveSpark版本 spark-2...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。