NYC-transport 项目安装和配置指南

最新推荐文章于 2024-10-19 22:40:53 发布

雷望沫Lee

最新推荐文章于 2024-10-19 22:40:53 发布

阅读量324

点赞数 3

本文链接：https://blog.csdn.net/gitblog_07050/article/details/142229691

版权

NYC-transport 项目安装和配置指南

NYC-transport A Unified Database of NYC transport (subway, taxi/Uber, and citibike) data. 项目地址: https://gitcode.com/gh_mirrors/ny/NYC-transport

1. 项目基础介绍和主要编程语言

项目介绍

NYC-transport 是一个统一的数据库项目，旨在整合纽约市公共交通数据，包括地铁、出租车/Uber 和 CitiBike 的数据。该项目提供了数据下载、清洗、处理和分析的代码，最终生成 Pandas 数据框，并以 Parquet 格式存储。

主要编程语言

该项目主要使用 Python 进行开发。

2. 项目使用的关键技术和框架

关键技术和框架

Python 3.4+
Beautiful Soup 4
Bokeh
Dask Distributed
FastParquet
Geopandas
Jupyter
Numba 0.29+
Palettable
PyArrow
PySpark 2.0.2+
Python-Snappy
Scikit-Learn
Seaborn

3. 项目安装和配置的准备工作和详细安装步骤

准备工作

安装 Python 3.4+：确保你的系统上已经安装了 Python 3.4 或更高版本。
安装 Conda：推荐使用 Conda 来管理 Python 环境和依赖包。你可以从 Conda 官网下载并安装。

详细安装步骤

1. 克隆项目仓库

首先，你需要从 GitHub 上克隆 NYC-transport 项目到本地。

git clone https://github.com/r-shekhar/NYC-transport.git
cd NYC-transport

2. 创建 Conda 环境

使用 Conda 创建一个新的 Python 环境，并安装项目所需的依赖包。

conda create -n nyc-transport python=3.4
conda activate nyc-transport

3. 安装依赖包

在激活的环境中，安装项目所需的所有依赖包。

conda install -c conda-forge \
    beautifulsoup4 bokeh distributed fastparquet geopandas \
    jupyter numba palettable pyarrow python-snappy \
    scikit-learn seaborn

conda install -c quasiben spark

4. 下载数据

项目提供了脚本来下载所需的数据。你可以使用以下命令来下载数据。

# 创建数据目录
./00_download_scripts/make_directories.sh

# 下载地铁数据（约 10 GB）
python 00_download_scripts/download-subway-data.py

# 下载 CitiBike 数据（约 7 GB）
./00_download_scripts/download-bike-data.sh

# 下载出租车数据（约 250 GB）
./00_download_scripts/download-taxi-data.sh

# 下载 Uber 数据（约 5 GB）
./00_download_scripts/download-uber-data.sh

# 解压缩数据
./00_download_scripts/decompress.sh

5. 转换数据为 Parquet 格式

使用项目提供的脚本将下载的数据转换为 Parquet 格式。

# 转换 CitiBike 数据（约 2 小时）
python 05_raw_to_dataframe/convert_bike_csv_to_parquet.py

# 转换地铁数据（约 2 小时）
python 05_raw_to_dataframe/convert_subway_to_parquet.py

# 转换出租车数据（约 32 小时）
python 05_raw_to_dataframe/convert_taxi_to_parquet.py

6. 重新分区数据

使用 PySpark 重新分区 Parquet 文件，以便更高效地访问。

# 重新分区数据
python 06_repartition/repartition_parquet.py

7. 运行分析

最后，你可以使用 Jupyter 笔记本进行数据分析。

# 启动 Jupyter 笔记本
jupyter notebook

在 Jupyter 中，你可以打开 15_dataframe_analysis 目录下的笔记本，开始进行数据分析。

总结

通过以上步骤，你已经成功安装并配置了 NYC-transport 项目。现在你可以开始使用该项目进行纽约市公共交通数据的分析和处理。

NYC-transport A Unified Database of NYC transport (subway, taxi/Uber, and citibike) data. 项目地址: https://gitcode.com/gh_mirrors/ny/NYC-transport