纽约出租车 spark分析 Echart可视化

最新推荐文章于 2024-08-26 14:37:34 发布

qq_39529154

最新推荐文章于 2024-08-26 14:37:34 发布

阅读量3.8k

点赞数 5

分类专栏：大数据spark 文章标签： spark Echart 大数据可视化

本文链接：https://blog.csdn.net/qq_39529154/article/details/85238461

版权

大数据spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

实验

github仓库：

https://github.com/zx4321/BigDataVisualization

https://github.com/zx4321/BigDataSpark

1. 问题描述

题号：（选修）15号

题目名称：纽约市出租车乘客的出行特征

复制你的问题描述：数据集：http://chriswhong.com/open-data/foil_nyc_taxi/为2013年纽约市出租车出行记录，请你基于spark平台，分析一下乘客的出行特征。

介绍你要解决的问题

问题的背景/意义

这是纽约市2013年出租车的出行数据。通过数据分析，可以得到出租车出行的路程分布、路程长度、上车中心点等。比如获得上车的中心点，就可以判断出租车在这附近能够最大可能载客。

问题的技术难点

对大数据框架的熟悉，大数据可视化，大数据海量数据处理。

2. 基于的系统/算法

介绍你使用的主要的系统或者算法库

系统架构/算法原理

软件开发系统：

Intellij专业版
Spark4.0
JDK8.0
scala2.11.12
hadoop-2.7.7
Tomcat9.0
Echart4.0

算法原理：

Kmean算法：

b. 你为什么选择使用这个系统/算法

Spark2.4.0 、scala2.11.12 、hadoop-2.7.7这是一个典型的大数据处理框架，能够快速的对大批量的大数据进行分析。

Tomcat9 、 Echart4.0 主要是用于java web程序可视化，其中Echart4.0能够对千万级的数据进行网页渲染。

Kmean算法能够获得一批数据的中心点，可以得到某个地区的上车中心点，那么出租车在中心点数据能够最大可能获得乘客。

你是如何使用这个系统/算法的

首先使用spark进行大数据的处理，得到自己想得到的数据，并保存为对应格式的文件，然后使用java web程序对文件进行展示分析。

（误区：之前认为大数据可视化，就应该使用spark对应的可视化工具，比如Apache Zepplin 、 Spark Notebook ，我认为在这个实验上面是一个误区，导致我花费一两天时间查这两个框架（也有可能我菜，不会用），但是采用这两个框架也能成功，但是我觉得费时费力，还不如采用web技术的框架，比如Echart4等。我目前采用的方案是，Spark分析数据，得到自己想要的数据，保存为文件（也可以是数据库文件），然后采用java web 程序进行结果展示， java程序需要另外编写，不应该在spark框架下写）

3. 实验流程

详细介绍你完成实验的主要流程

3.1 数据格式分析

实验数据压缩包（tripData2013.zip）：11GB

实验数据保存目录：

实验数据保存格式（CSV）：

3.2 spark代码编写和运行结果

3.2.1 初始化spark

3.2.2 读取文件（小技巧：设置大小不一样的文件，方便测试文件，数据为一月份数据）

3.2.3 删除第一行，并将数据集缓存

3.2.4 统计数据行数

运行结果：

3.2.5 统计每次乘车的乘客数量，并保存为txt文件

说明：通过生成一个新的RDD（passengerCountRDD），格式为（乘客数量：1），比如（1人：1）；采用了reduceByKey这个算子，统计所有的数据，得到结果，比如（1人：1万次）。然后保存数据为TXT文件，用于后期java web程序可视化。

保存数据为：

3.2.6 计算每次乘车的乘客平均数量

说明：通过3.2.5处理的得到数据passengerCount，通过乘客数量* 乘以乘客乘车次数得到所有的乘客数量，然后除以数据总数（dataLength）得到平均每次乘车的乘客数量。

运行结果：

3.27 获取某月中每天的打车的人数

说明：通过SimpleDateFormat函数，格式化时间（例如：2013/1/1 15:11:48），再通过formatter.parse(“2013/1/1 15:11:48”).getDate 获取这是几号，得到RDD数据，格式为（1号，一次），最后通过reduceByKey算子，得到所有的数据，例如（1号，一万次），代表在2013年1月1号这天有一万个人打车。最后保存为TXT文件。