纽约出租车案例分析

本文通过对纽约出租车数据的分析,探讨了打车需求高峰期、城市交通状况和居民夜生活情况。通过数据清理和异常值处理,发现周三和周四打车次数最多,1-3月打车人数增长,6月打车时长最长。利用Python的pandas和matplotlib进行数据处理,强调了理解数据背后业务逻辑的重要性。
摘要由CSDN通过智能技术生成

#过程设计 1)提出问题;2)理解数据;3)数据清理;4)数据分析;5)得出结论

#提出如下问题:1)何时为打车需求高发期?2)居民夜生活情况(根据打车情况推断);3)城市一天当中什么时候最拥堵;
‘’’
表单变量说明:

id - 每次行程的唯一ID
vendor_id - 行程提供者的ID
pickup_datetime - 上车的日期和时间
dropoff_datetime - 停表的日期和时间
passenger_count - 车辆中的乘客数量(驾驶员输入值)
pickup_longitude - 上车的经度
pickup_latitude - 上车的纬度
dropoff_longitude - 下车经度
dropoff_latitude - 下车的纬度
store_and_fwd_flag - 行程记录是否为存储转发(或是直接发送)-- Y =存储和转发 N =没有存储
trip_duration - 行程持续时间(秒)

‘’’

import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
from datetime import datetime

#读取数据,并显示部分数据

train=pd.read_csv(r"C:\Users\32715\Desktop\change\New York City Taxi Trip Duration\train.csv")
print(train.shape)
#print(train.head())
train.info()
print(train.describe())

#处理一下异常值,此处乘车时间max值是3.52e+6,近1000小时了,打车这么久不大可能。
#而min值1秒,需要清理一下。按照统计的方法,2个标准差的数据,可视为异常值。

m=np.mean(train['trip_duration'])
print(m)
s=np.std(train['trip_duration'])
print(s)
train=train[train['trip_duration']<m+2*s]
train=train[train['trip_duration']>m-2*s]

train.describe()
          vendor_id  passenger_count  pickup_longitude  pickup_latitude  \

count 1.458644e+06 1.458644e+06 1.458644e+06 1.458644e+06
mean 1.534950e+00 1.664530e+00 -7.397349e+01 4.075092e+01
std 4.987772e-01 1.314242e+00 7.090186e-02 3.288119e-02
min 1.000000e+00 0.000000e+00 -1.219333e+02 3.435970e+01
25% 1.000000e+00 1.000000e+00 -7.399187e+01 4.073735e+01
50% 2.000000e+00 1.000000e+00 -7.398174e+01 4.075410e+01
75% 2.000000e+00 2.000000e+00 -7.396733e+01 4.076836e+01
max 2.000000e+00 9.000000e+00 -6.133553e+01 5.188108e+01

 dropoff_longitude  
  • 3
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值