出行时间预测
● ○ ●
Xgboost Predict Taxi time
● ○ ●
项目地址:https://github.com/AnneQi/kaggle_project
项目说明:
纽约出租车协会提供了数百万出租车行车记录.
根据载客情况,预测毎一单出车用时
数据集说明:
❉❉❉❉❉❉❉❉❉❉
分析过程
数据读取
-
读取训练集和测试集
读取行程数据
数据可视化 KMeans Clustering + Matplotlib
特征工程
-
时间特征
距离特征
区域拥挤特征
挖掘速度特征
One-Hot/get dummies
运行模型 XGBoost:
-
One-Hot-Enconde类别型数据
区分训练集,验证集和测试集
设置参数,评估得分
写出结果,上传提交
数据预处理
1、导入需要的包
2、读入数据
3、查看数据情况
卧槽,还有行程时间是3526282秒的,这一单肯定很多钱,不过理解为异常点比较合理,还有1秒的,谁坐车只待1秒呢?后面在处理喽。