NYC-transport 项目安装和配置指南

NYC-transport 项目安装和配置指南

NYC-transport A Unified Database of NYC transport (subway, taxi/Uber, and citibike) data. NYC-transport 项目地址: https://gitcode.com/gh_mirrors/ny/NYC-transport

1. 项目基础介绍和主要编程语言

项目介绍

NYC-transport 是一个统一的数据库项目,旨在整合纽约市公共交通数据,包括地铁、出租车/Uber 和 CitiBike 的数据。该项目提供了数据下载、清洗、处理和分析的代码,最终生成 Pandas 数据框,并以 Parquet 格式存储。

主要编程语言

该项目主要使用 Python 进行开发。

2. 项目使用的关键技术和框架

关键技术和框架

  • Python 3.4+
  • Beautiful Soup 4
  • Bokeh
  • Dask Distributed
  • FastParquet
  • Geopandas
  • Jupyter
  • Numba 0.29+
  • Palettable
  • PyArrow
  • PySpark 2.0.2+
  • Python-Snappy
  • Scikit-Learn
  • Seaborn

3. 项目安装和配置的准备工作和详细安装步骤

准备工作

  1. 安装 Python 3.4+:确保你的系统上已经安装了 Python 3.4 或更高版本。
  2. 安装 Conda:推荐使用 Conda 来管理 Python 环境和依赖包。你可以从 Conda 官网 下载并安装。

详细安装步骤

1. 克隆项目仓库

首先,你需要从 GitHub 上克隆 NYC-transport 项目到本地。

git clone https://github.com/r-shekhar/NYC-transport.git
cd NYC-transport
2. 创建 Conda 环境

使用 Conda 创建一个新的 Python 环境,并安装项目所需的依赖包。

conda create -n nyc-transport python=3.4
conda activate nyc-transport
3. 安装依赖包

在激活的环境中,安装项目所需的所有依赖包。

conda install -c conda-forge \
    beautifulsoup4 bokeh distributed fastparquet geopandas \
    jupyter numba palettable pyarrow python-snappy \
    scikit-learn seaborn

conda install -c quasiben spark
4. 下载数据

项目提供了脚本来下载所需的数据。你可以使用以下命令来下载数据。

# 创建数据目录
./00_download_scripts/make_directories.sh

# 下载地铁数据(约 10 GB)
python 00_download_scripts/download-subway-data.py

# 下载 CitiBike 数据(约 7 GB)
./00_download_scripts/download-bike-data.sh

# 下载出租车数据(约 250 GB)
./00_download_scripts/download-taxi-data.sh

# 下载 Uber 数据(约 5 GB)
./00_download_scripts/download-uber-data.sh

# 解压缩数据
./00_download_scripts/decompress.sh
5. 转换数据为 Parquet 格式

使用项目提供的脚本将下载的数据转换为 Parquet 格式。

# 转换 CitiBike 数据(约 2 小时)
python 05_raw_to_dataframe/convert_bike_csv_to_parquet.py

# 转换地铁数据(约 2 小时)
python 05_raw_to_dataframe/convert_subway_to_parquet.py

# 转换出租车数据(约 32 小时)
python 05_raw_to_dataframe/convert_taxi_to_parquet.py
6. 重新分区数据

使用 PySpark 重新分区 Parquet 文件,以便更高效地访问。

# 重新分区数据
python 06_repartition/repartition_parquet.py
7. 运行分析

最后,你可以使用 Jupyter 笔记本进行数据分析。

# 启动 Jupyter 笔记本
jupyter notebook

在 Jupyter 中,你可以打开 15_dataframe_analysis 目录下的笔记本,开始进行数据分析。

总结

通过以上步骤,你已经成功安装并配置了 NYC-transport 项目。现在你可以开始使用该项目进行纽约市公共交通数据的分析和处理。

NYC-transport A Unified Database of NYC transport (subway, taxi/Uber, and citibike) data. NYC-transport 项目地址: https://gitcode.com/gh_mirrors/ny/NYC-transport

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

雷望沫Lee

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值