题目来源:https://www.kaggle.com/c/bike-sharing-demand
背景介绍
在覆盖整个城市的共享单车系统网络中,用户可以自助租借、归还自行车。这个系统产生的大量诸如租车时间、起始地点、结束地点等数据将系统构建成一张神经网络,能够用来学习城市的交通出行行为。
这个题目要求使用包括天气情况在内的历史数据预测华盛顿的共享单车系统的租借需求。
需要解决的问题
参考题目中的数据,分析不同因素与共享单车租借需求之间的关联度,建立有关共享单车租借需求的模型,预测华盛顿在某些天中的租借量。分析影响共享单车需求的主要因素。
评价标准
提交结果用均方根误差(Root Mean Squared Logarithmic Error,RMSLE)评价模型好坏。RMSLE数学原型:
其中:
n是测试集样本点数
pi是测试值
ai是实际值
log(x)是自然对数
当均方根误差越小时,表示数据的拟合效果越好,测试值越接近实际值。
数据描述
datetime - hourly date + timestamp yyyy - mm - dd hh : mm : ss
season - 1 = spring, 2 = summer, 3 = fall, 4 = winter
holiday - whether the day is considered a holiday
workingd