共享单车示例数据集分为两个数据集-训练数据集(bike_train_data)和预测数据集(bike_predict_data),通过Notebooks我们可以方便的使用熟悉的sql语句,对数据集内的数据进行浏览。
从数据集内容可以看出,训练数据集包含一个时间段内的每日单车使用量(count),以及当日的其他相关信息,比如季节、天气情况、温度、风速等,而预测数据集内容基本相同除了没有单车使用量(此为我们需要进行预测的数值)。
从训练数据集数据可以看出,部分的数据是字符型数据,在进行回归建模前我们需要将该部分数据转化为数值型。以季节(season)和天气(weathersit)为例,我们需要先分析该变量的取值范围,我们可以使用ADW Notebooks提供的数据结果可视化能力进行快速分析。
通过对season数据分布的图形分析,以及进一步的season和weathersit数据的图形分析,很轻易的获得了这两个变量的取值范围。下面根据上面获得的信息,通过脚本构建用于进行数据建模的数据库视图。如下脚本所示,所有字符型的变量都转变为可进行建模的数值型变量。