机器学习笔记二:线性回归与最小二乘法

这篇笔记深入探讨了线性回归和最小二乘法的概念,以奥运会男子100米金牌时间数据为例,通过定义模型、模型假设、最小二乘解等步骤解释了如何构建线性模型。文章还介绍了使用Python进行数据处理和模型拟合,并通过sklearn库实现了线性回归。
摘要由CSDN通过智能技术生成

这篇笔记会将几本的线性回归概念和最小二乘法。其他的会在下一篇扩展。
在机器学习中,一个重要而且常见的问题就是学习和预测特征变量(自变量)与响应的响应变量(应变量)之间的函数关系
这里主要讨论线性函数:在特征和响应之间学习线性关系。
这篇文章是入门基本概念的一片文章,会引导你关于一些模型的基本过程是怎样的。这里需要一些python和数学的基础知识。

一.线性建模

以奥运会男子100米金牌需要的时间数据为例。我们希望预测某年奥运会的男子拿到金牌的时间。从网上收集到数据,做成格式合适的数据集,如下图。
这里写图片描述
用python解析文件,代码如下
这里写图片描述

用python画图,代码如下
这里写图片描述

得到大致的数据分布结果:
这里写图片描述

可以看见一个近似线性的结果,因此,我们考虑用线性建模的方法来给这个数据建立模型

Ⅰ.定义模型

这里写图片描述
其中t是跑步时间,x是年份这里写图片描述,a是有必要但是未知的参数.

Ⅱ.模型假设

假设x和t之间的关系是线性的.
这里写图片描述
这是直线的标准形式.现在学习任务就是用得到的数据为两个参数选择合适的值.

Ⅲ.定义什么是最好的模型(重点)

首先,我们知道要想找到最好的模型,就是这条直线和所有的数据点都尽量的接近.
这里写图片描述表示真实数据集中第n次年份和时间.那么使得
这里写图片描述
最小,意味着数值的越接近.
根据这个引出第n个实例的平方损失函数(squard loss function):
这里写图片描述
同理,整个数据集上面的平均平方损失函数:
这里写图片描述
我们的任务就是调整模型参数的值,使得平均平方损失函数最小
这里写图片描述
(其中,argmin是数学上找到最小化参数的缩写.平方损失能够找到两个参数的最好值.)

Ⅳ.最小二乘解

上面已经说过了,我们要通过平均平方损失函数来找到w0w1的值使得我们求的的函数尽量能够接近数据集.
因此我们自然的对损失函数求最小值.
这里写图片描述
现在我们要求的便是以这里写图片描述为变量,其他量都是常量的函数最小值.
由多元函数的极值理论有
这里写图片描述
分别对w0w1求偏导
在对w1求偏导的时候,我们从公式中提取出只与它的偏导有关系的一部分公式,因为无关的求导必然为0,这里我们选择直接忽略
去掉与w1无关的项,同时,当求和式子里面某个变量与求和无关的话,可以直接提出来(把它当做常量)

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值