![28729513e004e5df4b93ef6541ba9b49.png](https://img-blog.csdnimg.cn/img_convert/28729513e004e5df4b93ef6541ba9b49.png)
【python数据分析实战一】糖尿病预测(线性回归模型)数据处理中,将描述和分析两个或两个以上变量之间的关系的过程称之为相关分析,其目的在于找到变量之间的密切程度和变化规律,以便于统计,预测,为正确的决策提供参考。这篇文章主要介绍了线性回归以及相关系数。
![887b38b0a094f6a435ae117889d7ce35.png](https://img-blog.csdnimg.cn/img_convert/887b38b0a094f6a435ae117889d7ce35.png)
1、一元线性回归
线性回归是比较简单,易于理解的一种相关关系,作为机器学习的入门算法非常合适。中学我们都学过二元一次方程,y作为因变量,x作为自变量,得到方程:
当给定参数
当我们只用一个x来预测y,就是一元线性回归,也就是在找一个直线来拟合数据。比如,我有一组数据,分别是学生的学习时间和分数,我在坐标中画出散点图,横坐标代表学习时间,纵坐标分数,线性回归就是要找到一条直线,并且让这条直线尽可能地拟合图中的数据点。
![894ad9713a77bc78d4c0af661945d200.png](https://img-blog.csdnimg.cn/img_convert/894ad9713a77bc78d4c0af661945d200.png)
这里我们得到的拟合方程是y = 15.48x +11.17(这个拟合方程式是计算得到,后面会讲如何实现)。
2、损失函数
那既然是用直线拟合散点,为什么最终得到的直线是y = 15.48x +11.17,而不是下图中另外两条线,毕竟数据都没有全部落在某一条直线上,而是分布在直线周围,所以我们要找到一个评判标准,用于评价哪条直线才是最“合适”的。
![7fe2a6d241065ff09aa3e08d73002ec4.png](https://img-blog.csdnimg.cn/img_convert/7fe2a6d241065ff09aa3e08d73002ec4.png)
首先观察计算机给我们计算得到的最优直线,真实值和预测值之间是有差距的,我们把这个差距称之为误差