Python项目实战——纽约出租车运行情况分析建模

本文通过Python对纽约出租车数据进行分析,包括聚类区域划分、客流趋势动态展示和邻居分析。利用数据挖掘,揭示了出租车运行的时空特征,如客流密集区域、时间因素对运行的影响以及区域间客流量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、项目概述

根据出租车的运营数据,针对客户旅途时间展开分析与建模,对客流趋势及区域分布进行分析,对出租车历史数据进行分析,为客户预测预计到达时间等

过程设计:

提出问题
理解数据
数据清理
数据分析
得出结论

重要字段说明 :

编号: id
出租车类型: vendor_id
上车时间: pickup_datetime、
下车时间: dropoff_datetime、
乘客数量: passenger_count 、
上车地点 : pickup_longitude(经度)、pickup_latitude(纬度)、
下车地点: dropoff_longitude (经度)、 dropoff_latitude(纬度)、
旅途持续时间(秒): trip_duration。

首先导入需要的模块

#导入包
import os
import pandas as pd
import numpy as np
from matplotlib.pyplot import *
from matplotlib import animation 
from matplotlib import cm
from sklearn.cluster import KMeans
from sklearn.neighbors import KNeighborsClassifier
from dateutil import parser
import io
import base64

导入数据,查看前五行:

df=pd.read_csv(r'C:\Users\www12\Desktop\python\pythonDA\NewYork\train.csv')
df.head()
​print(df.shape[0])
1458644

在这里插入图片描述

二、聚类区域划分

在这里插入图片描述
查看纽约市地图,划分出分析区域的经纬度,再根据数据分布情况,选择对经度[-74.03,-73.77],纬度[40.63,40.85]之间数据较为集中的区域进行分析,筛选掉区域之外的地点。

xlim=[-74.03,-73.77]
ylim=[40.63,40.85]
df=df[(df['pickup_longitude']>=xlim[0]) & (df['pickup_longitude']<=xlim[1])]
df=df[(df['dropoff_longitude']>=xlim[0]) & (df['
评论 20
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值