“有些事情我们知道我们知道这些事,我们还知道有些事情我们知道我们不知道。这就是说,有些事情我们不知道,但是还有些我们不知道我们不知道,也就是说有些事情我们不知道我们不知道这些事。”——《已知与未知》(Known and Unknown)。
对于“有些事情我们不知道我们不知道这些事”正需要我们通过探索学习才能发现“新大陆”,那么今天我们把这任务交给机器学习吧!嘿嘿。。接下来开始我们的学习这篇博客中我们将要学到:
1,如何计算线性回归方程的斜率和截距
2,用python语言实现线性回归算法
3,如何判断模型拟合的好坏
第二篇教程我们已经知道如何用sklearn中的回归来预测股票了,这篇教程我会深入的讨论回归算法,虽然我们没有必要深入了解所有的数学,线性代数在机器学习中是至关重要的,我们以后都会经常用到它。有兴趣可以自己多了解这方面知识。我们知道线性代数可以计算空间向量点之间的关系。同样,我们也可以把它应用于数据集的特征。还记得记得在我们定义线性回归研究的数据类型为连续性数据吗?使用简单的线性回归可以寻找数据集的最佳拟合线。如果数据不是连续的,那么就不会有最佳的拟合线?让我们看看一些例子:
上面的图像显然具有很好的相关性。如果你被要求根据估计来画一条最合适的线,我们可以很容易地拟合出最佳的函数:
从上图X和y之间有一种关系(相关性),我们可以看出根据一个Y可以预测一个X,或者说根据一个X预测一个Y,我们完成预测图中的点,需要一个线性代数的支持。 现在,我们回顾一下初中的知识,简单直线的定义:y = mx + b,其中m是斜率,b是轴截距。我们只要知道合适m(斜率)和b(截距)我们就能计算出x对应的Y了。
最佳拟合线的斜率m定义为: