机器学习算法(一):线性模型

一、线性回归

对于由m个d维样本点组成的样本x
在这里插入图片描述

线性回归模型试图学得一个通过属性的线性组合来进行预测的函数:
在这里插入图片描述
或用矩阵形式表示为:
在这里插入图片描述
使得
在这里插入图片描述

其中
在这里插入图片描述在这里插入图片描述
注意这里w和x都是列向量,b是截距项。当w和b确定后,模型也就确定了,那么怎么求w和b呢?最优的w和b就是使损失函数最小的w和b,类似于一元线性回归中使用均方误差(或残差平方和)作为损失函数,多元线性回归损失函数可以用矩阵表示为:
在这里插入图片描述
上式中,为了便于讨论我们把数据集矩阵x增广为一个m*(d+1)的矩阵X,把w和b吸收入
在这里插入图片描述
,亦即
在这里插入图片描述
在这里插入图片描述
那么令
在这里插入图片描述
解上式后即可得到
在这里插入图片描述
同时也就得到了w和b。

二、逻辑回归(对数几率回归)

上一节讨论的是如何使用线性模型进行回归学习,但如果想使用线性模型进行分类任务该怎么做呢?分类任务最终要得到每个样本点是正例或负例的概率,也就是说要输出一个0~1的小数,而我们线性回归中y是属于实数集R的。我们把线性回归的输出命名为z,把最终输出的概率命名为y,因此我们可以找一个单调可导函数y=g(z)输出范围在0到1之间,即:
在这里插入图片描述

g(z)函数的输入范围应为R,输出范围应为0~1.而sigmoid函数具备这样的良好性质
在这里插入图片描述
将线性回归函数带入上式可得逻辑回归函数:
在这里插入图片描述

变换后可得:
在这里插入图片描述
前面已经提到了,y就是样本点为正例的概率,那么1-y自然就是负例的概率,y/(1-y)反映了样本点为正例的相对可能性,称为"几率"(odds),“对数几率回归”(logistic regression)的名称由此而来,亦称“逻辑回归”。
下面的问题自然就是解出逻辑回归函数中的w和b,什么样的w和b才是我们想要的呢?频率学派认为:参数是客观存在的固定值,因此,最好的参数应当能使数据出现的可能性最大。在我们这里,最好的参数应当能使每个样本点属于其真实标记的概率最大。
样本点为正例或负例的概率为:
在这里插入图片描述
在这里插入图片描述

我们可以概括性的写为:
在这里插入图片描述
于是可以构造似然函数
在这里插入图片描述
上式为连乘,容易造成下溢出并且难以求导,所以一般使用对数似然
在这里插入图片描述

在这里插入图片描述
即可求得参数w和b。然而我们一般难以求得解析解,所以使用梯度下降法(或牛顿法等)。
梯度下降法需要求的是损失函数最小时的参数,所以需要做如下变换:
在这里插入图片描述
J(w)事实上就是损失函数,那么参数更新公式为:
在这里插入图片描述
至此,逻辑回归求解完毕。
逻辑回归有以下优点:
1.它直接对分类可能性进行建模,无需实现假设数据分布。
2.它得到的是概率,再用一个阈值去分类,而不是直接分类。
3.目标函数y=g(z)是任意阶可导函数,具有很好的数学性质。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值