【3】线性模型

注意:所有的向量默认是列向量
虽然建议大家了解计算过程,但是实际应用中计算用的不多,都是使用的现成的工具。可以跳过.

1.什么是线性模型

给定由d个属性描述的示例x={x1;x2;x3;…;xd},其中xi是x在第i个属性上的取值。线性模型试图学得一个通过属性得线性组合来进行预测得函数,即:
在这里插入图片描述

很好理解,线性模型就是通过给每一个属性(属性必然是已给出的)找一个权重,让他们相乘之后再相加得到的结果和实际上得结果越接近越好,当然,能相等最好。
我们怎么评估一个模型(就是这样一组权重和偏差)计算出的结果是最好的呢?此时,我们使用均方误差来衡量计算值(预测值)与实际值之间的差距。均方误差就是一个损失函数
在这里插入图片描述

其中W和b表示W和b的解。 argmin表示使后面的函数值最小。
当上面的函数最小,就表示我们的模型已经和实际的函数很接近了。例如:
在这里插入图片描述
蓝色的点为实际的样本点,红色的线为我们预测的函数,当损失函数最小时,可以认为函数拟合的最好。

2.一元线性回归

上面我们已经知道我们的目的是使损失函数最小化。直观的来说,既然最小,必然是一个极值,极值点的导数或者偏导数必然为0.所以,我们只要让损失函数分别对w和b求偏导,解的w和b就可以了。
因为我们现在只是一元线性回归,所以x是一个标量*也就是一个数字,而不是向量),w和b也是标量。
在这里插入图片描述只要能够解出上面方程组的解,我们就知道w和b的值了。
在这里插入图片描述
这样,w和b我们就计算出来了。
在这里插入图片描述
Andrew在讲解线性回归时候直接就使用了梯度下降的方法来解w和b,当然也是可以的。而且,梯度下降后面会很常用。

可能有人会有这样的疑问:你怎么知道令导数为0,解出来的就是能使损失函数E最小的点呢?
因为:函数E是关于w和b的一个凸函数,当他关于w和b的倒数为0时,得到的就是最优解。

3.多元线性回归

上面我们的计算只有x和w都是标量,计算起来相对简单,但是,这种情况实际中不常见,更常见的是一个样本有多个属性。此时,就需要使用多元线性回归了。
在这里插入图片描述
其中,xij表示的是,样本i的第j个特征。
此时,我们有m个样例,每个样例有d个特征,我们的X矩阵即为m x (d+1)。为了计算方便,我们把偏差b和w合起来。变成下面的形式,w就是(m+1) x 1的向量了。
在这里插入图片描述
此时,矩阵X和矩阵w相乘,得到的是mx1的向量,和y向量是一致的,二者可以直接进行加减运算了。

我们的损失函数即为:
在这里插入图片描述
同样的,我们还使用求导数的方法来解w,现在w中也含有b了,直接求就行了。
在这里插入图片描述
此时,我们的模型就计算完了:
在这里插入图片描述
注意:上面我的计算中视w和w弯等等是一样的。

你可能注意到了,上面的计算中有一个求逆的运算,可是,我们怎么保证X^TX一定有逆呢????
事实是我们也无法保证,如果存在的话最好,不存在的话需要我们进行正则化处理。(矩阵不满秩不可逆)

推荐:岭回归和LASSO回归的区别

(1) 岭回归

上面说了矩阵可能会存在不可逆的情况,进而造成无解或者说解无穷多的情况。为了解决这一问题,我们在损失函数E后面添加L2范数的惩罚项。比如:
在这里插入图片描述
其中λ为非负数。λ越大,则为了使E最小,回归系数β就越小。

求w的推导过程这里先不写了。

(2) LASSO回归

和岭回归类似,只是损失函数之后加的不是L2范数,而是L1范数了。
在这里插入图片描述

4.基于知识的线性回归

广义线性回归是把非线性问题转换为线性问题。但是转换的方法不只有广义线性回归里的那种,还可以这样:
用一组由原特征值表示的函数来代替原有的特征。
在这里插入图片描述其中:
在这里插入图片描述

5.广义线性回归

上面的线性回归的都是普通的,直接权重和特征值相乘。但是,这样计算出的怎么都是一条直线(可能是很高维的直线),如果目标是一个指数呢。
在这里插入图片描述
这样,我们就可以拟合一个指数函数了。这样的就是广义线性回归。
在这里插入图片描述

6.对数几率回归

机器学习有两大基本任务:分类回归。虽然他们属于不同类别的问题,但是也可以统一起来。把分类问题作为回归问题来考虑,设置一个阈值,大于这个阈值为1类,小于这个阈值为1类。

比如:二分类问题:
如果使用单位阶跃函数是最好的,预测值大于0就是正样例,小于0就是负样例。
在这里插入图片描述
单位阶跃函数
但是,单位阶跃函数是不连续的,回归问题却是连续的问题。所以,我们需要使用sigmoid函数代替阶跃函数。(sigmoid函数也经常作为神经网络的激活函数)
在这里插入图片描述
在这里插入图片描述
其中,z=wTx + b。
在这里插入图片描述
如果把y作为样例是正样例的可能性,y/(1-y)成为“几率”,反应x作为正样例的相对可能性。对几率取对数就是对数几率
在这里插入图片描述
上式左边就是样本是正样例的概率/样本是负样例的概率,再取对数。就是对数几率。
显然有:
在这里插入图片描述
在这里插入图片描述

上式表示所有样例正确分类的结果之和。我们希望他越大越好,他越大,代表,正确的越多。为了简写,令β=(w;b)
在这里插入图片描述
在这里插入图片描述
下面就是一些结论了,推导过程先不写了
在这里插入图片描述
在这里插入图片描述
P.S 本文后续可能还会更新。。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值