NYC-transport 项目推荐
1. 项目基础介绍和主要编程语言
NYC-transport 是一个开源项目,旨在整合纽约市多种公共交通数据,包括地铁、出租车/Uber 和 CitiBike 的数据。该项目的主要编程语言是 Python,并使用了多种数据处理和分析库,如 Pandas、Dask、PySpark 等。
2. 项目核心功能
该项目的主要功能包括:
- 数据下载:从多个公开数据源下载纽约市公共交通数据,包括地铁、出租车/Uber 和 CitiBike 的数据。
- 数据清洗:对下载的数据进行清洗,去除损坏的数据,确保数据质量。
- 数据转换:将清洗后的数据转换为 Pandas DataFrame,并使用 Dask 和 FastParquet 将其保存为 Parquet 格式文件。
- 数据分区:使用 PySpark 对 Parquet 文件进行重新分区,以提高后续查询的效率。
- 数据分析:在 Jupyter 笔记本中使用 PySpark 和 Dask 进行数据分析,生成数据科学结果。
3. 项目最近更新的功能
由于引用内容中没有提供具体的更新日志或最近更新信息,因此无法提供具体的最近更新功能。建议访问项目的 GitHub 页面查看最新的提交记录和更新内容。