第九课 案例分析:共享单车需求
本数据包含某城市共享单车租借数据。共享单车使人们可以一个地方租借自行车并在另一个地方换车,符合目前低碳环保的理念。 新增知识点:
特征工程的概念
日期型变量的处理
相关性分析
问题:
租车人数是由哪些因素决定的?
3.1 相关系数的计算和可视化
相关分析是一种基于不同特征相关系数的分析,是一种帮助我们理解特征是如何影响应变量(count)的常用方法。
相关系数是一个介于[-1,1]之间的一个实数。简单来说:
* 0表示没有线性相关性
* 负数表示一个值变大则另一个值有变小的趋势
* 正数表示一个值变大则另一个值有变大的趋势
* 相关系数的绝对值大小决定了这种线性相关性的强弱
我们通常用相关系数来反映它们的相关性。额,下图又是截屏于新生大学- 解密大数据团队-线上课程PPT内容:
(截图于新生大学- 解密大数据团队- 线上课程PPT内容)
相关系数等于 0 的时候,没有线性相关性,但不代表没有其他关系,比如最后一行的各种各样的形状相关。相关性系数在 Python 中,我们可以用 df.corr( ) 来表示:
相关系数
老师说,一般我们认为相关值大于 0.5,相关性就比较强了,小于这个数就是比较弱的相关性了。
从上面的矩阵可以看到,表格的对角线值是 1 ,其实就是自己和自己的相关性是1。也可以看到整个表格是对称的,因为 A 和 B 的相关性与 B 和 A 的相关性是一样的,只不过是顺序不一样。
观察上面的矩阵,我们有以下洞察
count 和 registered、casual 高度正相关,相关系数分别为 0.69 与0.97。因为 count = casual + registered ,所以这个正相关和预期相符。
count 和 temp 正相关,相关系数为 0.39。一般来说,气温过低人们不愿意骑车出行。
count 和 humidity(湿度)负相关,湿度过大的天气不适宜骑车。当然考虑湿度的同时也应该考虑温度。
temp(温度)和 atemp(体感温度)高度正相关(0.98)。因为体感温度是围绕温度上下波动的。
风速似乎对从租车人数影响不大(0.10),但我们也应该考虑到极端大风天气出现频率应该不高。风速在正常范围内波动应该对人们租车影响不大。
上面矩阵的数据有点多,看起来比较累,所以此时