机器学习之线性回归

一 引言

最近在学习深度学习,一下是对学习内容的一些记录,本文主要讲述线性回归中涉及得数学公式推导以及算法的理解

二 什么是线性回归

线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。
特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况的叫做多元回归
Alt
线性回归用矩阵表示:
在这里插入图片描述
为了更好的理解,下面举个例子:
期末成绩:0.7x期末考试成绩+0.3x平时成绩
上面这个例子我们可以看到特征值与目标值之间建立了一个关系,这个关系可以理解为线性模型.

三 数学推导

1.问题引入

假设银行贷款会根据需要贷款人的工资和年龄进行额度的确定,这里给定5个数据样本如下图所示
在这里插入图片描述
根据以上表格,我们可以得到一个线性方程应为 f(x)=w1x1+w2x2+b,
其中w1可以理解工资这个特征对于最终额度的影响,w2可以理解年龄这个特诊对于最终额度的影响,而b可以理解为一个误差值(即实际额度可能有小额的偏差)

2.数学推导

假设 θ 1 θ_{1} θ1为年龄参数, θ 2 θ_{2} θ2为工资参数,拟合平面得:
在这里插入图片描述
其中 θ 0 θ_{0} θ0 为偏置系数,与数据无关,影响较小; θ 1 θ_{1} θ1 θ 2 θ_{2} θ2 为权重系数,与数据有关,影响较大。
在这里插入图片描述
那么 x 0 x_{0} x0如何理解呢?可以为每一个样本引入一个新特征 x 0 x_{0} x0,每个样本满足该特征 x 0 = 1 x_{0}=1 x0=1
这样就可以将拟合的平面函数转化成矩阵操作

3.误差说明

真实值与预测值之前肯定存在误差,用 ε \varepsilon ε来表示误差,误差是独立且具有相同的分布,并且服从高斯分布.
在这里插入图片描述
高斯分布:银行可能会多给也可能会少给,但是绝大多数情况下,这个浮动不会太大,极小情况下浮动会很大,这都属于正常情况。
1.为什么误差服从高斯分布?
可通过中心极限定理的另一种解释得到。受多种独立因素影响的随机变量,是服从正态分布的。而误差都是有多种独立(无相互影响)的误差源,因此,误差近似为正态分布。
2.如何理解独立?
样本与样本之间无关,算法同等对待每个样本
3.如何理解同分布?
每一个样本使用的算法确定且一致
在这里插入图片描述

似然函数求解

似然函数
在这里插入图片描述
什么是似然函数?
解释:什么样的参数跟我们的数据组合后最接近真实值
为什么要进行累乘?
解释:我们要考虑到所有的样本,也就是说我们的 θ θ θ参数要满足所有的样本。
对数似然:
在这里插入图片描述
为什么要用对数似然
解释:乘法难解,加法就容易许多,取了对数后,对数里面乘法可以转换成加法。
展开化简:
在这里插入图片描述
我们的目标:让似然函数(对数变化后也一样)越大越好
因为上述等式最后的化简结果的前部分是一个常数,所以想让整体结果越大,后面减的部分就要越小,所以得到我们的目标函数
在这里插入图片描述
然后将目标函数展开
在这里插入图片描述
解释:对于矩阵求平方,就等于自身的转置乘以自身。
求偏导:
在这里插入图片描述
为什么要求偏导?
解释:通常我们认为在偏导等于0的情况下,我们会取得最小值。(在机器学习中我们普遍认为函数是一个下 凸函数(凸优化))
那就令上述等式等于零,所以我们可以得出:
在这里插入图片描述
在机器学习中都是一步一步优化找到最小值,而不是直接求解。

评估方法

在这里插入图片描述
R的平方取值越接近1我们认为模型拟合的越好。

四 总结

未完待更新

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值