数据背景来自:优梨:滴滴2020年春招Sql笔试题分析zhuanlan.zhihu.com
这里就不再重复了,主要描述如何使用python数据清洗
问题:
1.订单的平均应答率是多少?完单率是多少?
2.每个订单的平均应答时间是多少?
3.从这一周的时间来看,呼叫次数最多的时间是几点(当地时间),最少的随时间是几点(当地时间)
4.客户留存的情况:呼叫订单第二天继续呼叫的比例是多少?
数据清洗
1.首先导入文件
import pandas as pd
x1=pd.read_csv('C:/Users/LENOVO/Desktop/didi.csv')
2.为方便理解查询将列名改成中文
smallDic={'order_id':'订单号','passenger_id':'乘客号','call_time':'呼叫时间',
'grab_time':'应答时间','cancel_time':'取消时间','finish_time':'完成时间'}
x1.rename(columns=smallDic,inplace=True)
x1.head()
3.缺失数据处理
x1.shape
x2=x1.dropna(subset=['订单号&