学习目标:
1·理解什么是线性回归;
2·使用Python进行的线性回归分析各大城市的降水与气温之间的关系。
首先,什么是线性回归?
线性是自然界、人类社会中比较普遍的一种关系,比如说房价的预测、金融的预测等等都会运用到线性的知识。但是我们在看待问题的时候一定要注意:相关性不代表因果性!!! 举个例子:有一个管理沙滩旅游的经理,因沙滩上溺水的人数较多,想去探究一下原因。发现雪糕卖得越多,游泳溺水死亡的人数越高。难道就表明雪糕会增加游泳溺水的可能性吗?这显然是不恰当的。
让我们来捋一下思路:夏天温度高 --> 去海边玩耍的人数增加 --> 游泳的人多了
夏天温度高 --> 去海边玩耍的人数增加 -->买雪糕的人多了
两者之间根本没有任何的因果性,所以不要被表面的相关性所误导。
-------- 回归正题 --------
“上帝”在一开始制定线性规则的时候,在他的视角线性规律可能会是下图所示:
![bd4a6dedeec2c3eeb2a1cb34d6f7ce28.png](https://img-blog.csdnimg.cn/img_convert/bd4a6dedeec2c3eeb2a1cb34d6f7ce28.png)
等式右边最后一项,我们称之为随机数Error(遵循正态分布)。
为了更好的理解随机数这个概念,我们举一个生活中的例子:Y是工作的收入,X是学历。按照一般的社会法则,我们可以预见学历越高,一般收入也就越高(受线性关系的支配)。但是总有一些“被上帝眷顾的宠儿”在相同的学历程度中,最后一个随机数,随出来很大,那么他的收入自然也就变高了,像马云等。
但是在人类视角,我们是看不到Error是如何运作的,并且只能通过以前的数据去猜出常数项和斜率,如下图:
![6e7ac7eeda154f3a78892c4fe5653b64.png](https://img-blog.csdnimg.cn/img_convert/6e7ac7eeda154f3a78892c4fe5653b64.png)
(具体如何建模我们会在下文提到)