NYC-transport 项目安装和配置指南
1. 项目基础介绍和主要编程语言
项目介绍
NYC-transport
是一个统一的数据库项目,旨在整合纽约市公共交通数据,包括地铁、出租车/Uber 和 CitiBike 的数据。该项目提供了数据下载、清洗、处理和分析的代码,最终生成 Pandas 数据框,并以 Parquet 格式存储。
主要编程语言
该项目主要使用 Python 进行开发。
2. 项目使用的关键技术和框架
关键技术和框架
- Python 3.4+
- Beautiful Soup 4
- Bokeh
- Dask Distributed
- FastParquet
- Geopandas
- Jupyter
- Numba 0.29+
- Palettable
- PyArrow
- PySpark 2.0.2+
- Python-Snappy
- Scikit-Learn
- Seaborn
3. 项目安装和配置的准备工作和详细安装步骤
准备工作
- 安装 Python 3.4+:确保你的系统上已经安装了 Python 3.4 或更高版本。
- 安装 Conda:推荐使用 Conda 来管理 Python 环境和依赖包。你可以从 Conda 官网 下载并安装。
详细安装步骤
1. 克隆项目仓库
首先,你需要从 GitHub 上克隆 NYC-transport
项目到本地。
git clone https://github.com/r-shekhar/NYC-transport.git
cd NYC-transport
2. 创建 Conda 环境
使用 Conda 创建一个新的 Python 环境,并安装项目所需的依赖包。
conda create -n nyc-transport python=3.4
conda activate nyc-transport
3. 安装依赖包
在激活的环境中,安装项目所需的所有依赖包。
conda install -c conda-forge \
beautifulsoup4 bokeh distributed fastparquet geopandas \
jupyter numba palettable pyarrow python-snappy \
scikit-learn seaborn
conda install -c quasiben spark
4. 下载数据
项目提供了脚本来下载所需的数据。你可以使用以下命令来下载数据。
# 创建数据目录
./00_download_scripts/make_directories.sh
# 下载地铁数据(约 10 GB)
python 00_download_scripts/download-subway-data.py
# 下载 CitiBike 数据(约 7 GB)
./00_download_scripts/download-bike-data.sh
# 下载出租车数据(约 250 GB)
./00_download_scripts/download-taxi-data.sh
# 下载 Uber 数据(约 5 GB)
./00_download_scripts/download-uber-data.sh
# 解压缩数据
./00_download_scripts/decompress.sh
5. 转换数据为 Parquet 格式
使用项目提供的脚本将下载的数据转换为 Parquet 格式。
# 转换 CitiBike 数据(约 2 小时)
python 05_raw_to_dataframe/convert_bike_csv_to_parquet.py
# 转换地铁数据(约 2 小时)
python 05_raw_to_dataframe/convert_subway_to_parquet.py
# 转换出租车数据(约 32 小时)
python 05_raw_to_dataframe/convert_taxi_to_parquet.py
6. 重新分区数据
使用 PySpark 重新分区 Parquet 文件,以便更高效地访问。
# 重新分区数据
python 06_repartition/repartition_parquet.py
7. 运行分析
最后,你可以使用 Jupyter 笔记本进行数据分析。
# 启动 Jupyter 笔记本
jupyter notebook
在 Jupyter 中,你可以打开 15_dataframe_analysis
目录下的笔记本,开始进行数据分析。
总结
通过以上步骤,你已经成功安装并配置了 NYC-transport
项目。现在你可以开始使用该项目进行纽约市公共交通数据的分析和处理。