python共享单车案例分析_文科生学Python系列20:共享单车案例2(相关性分析)

本文通过分析某城市共享单车数据,探讨租车人数受哪些因素影响。运用相关性分析发现:租车人数与注册用户、天气温度正相关,与湿度负相关;并利用相关系数和散点图进行线性回归分析。此外,数据可视化揭示了温度、湿度、节假日和天气对租车人数的影响,便于理解不同条件下的租车趋势。
摘要由CSDN通过智能技术生成

第九课 案例分析:共享单车需求

本数据包含某城市共享单车租借数据。共享单车使人们可以一个地方租借自行车并在另一个地方换车,符合目前低碳环保的理念。 新增知识点:

特征工程的概念

日期型变量的处理

相关性分析

问题:

租车人数是由哪些因素决定的?

3.1  相关系数的计算和可视化

相关分析是一种基于不同特征相关系数的分析,是一种帮助我们理解特征是如何影响应变量(count)的常用方法。

相关系数是一个介于[-1,1]之间的一个实数。简单来说:

* 0表示没有线性相关性

* 负数表示一个值变大则另一个值有变小的趋势

* 正数表示一个值变大则另一个值有变大的趋势

* 相关系数的绝对值大小决定了这种线性相关性的强弱

我们通常用相关系数来反映它们的相关性。额,下图又是截屏于新生大学- 解密大数据团队-线上课程PPT内容:

(截图于新生大学- 解密大数据团队- 线上课程PPT内容)

相关系数等于 0 的时候,没有线性相关性,但不代表没有其他关系,比如最后一行的各种各样的形状相关。相关性系数在 Python 中,我们可以用  df.corr( ) 来表示:

相关系数

老师说,一般我们认为相关值大于 0.5,相关性就比较强了,小于这个数就是比较弱的相关性了。

从上面的矩阵可以看到,表格的对角线值是 1 ,其实就是自己和自己的相关性是1。也可以看到整个表格是对称的,因为 A 和 B 的相关性与 B 和 A 的相关性是一样的,只不过是顺序不一样。

观察上面的矩阵,我们有以下洞察

count 和 registered、casual 高度正相关,相关系数分别为 0.69 与0.97。因为 count = casual + registered ,所以这个正相关和预期相符。

count 和 temp 正相关,相关系数为 0.39。一般来说,气温过低人们不愿意骑车出行。

count 和 humidity(湿度)负相关,湿度过大的天气不适宜骑车。当然考虑湿度的同时也应该考虑温度。

temp(温度)和 atemp(体感温度)高度正相关(0.98)。因为体感温度是围绕温度上下波动的。

风速似乎对从租车人数影响不大(0.10),但我们也应该考虑到极端大风天气出现频率应该不高。风速在正常范围内波动应该对人们租车影响不大。

上面矩阵的数据有点多,看起来比较累,所以此时

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值