NTU课程 CE7454 回归与分类

1 问题描述

 如果我们把最后的1也视为参数,那么我们有:

展示在图上,我们的目标就是找到最接近观测点的一条直线

 

        注意一点,我们的核心目标是找到模型最贴切的参数,这一组参数下的模型在所有可能的数据中有最小的误差函数  

        所有可能的意思是训练数据和非训练数据      

2 损失函数:MSE

写成矩阵的形式,MSE可以表示为:(这里β是线性回归的系数)

 

为了找到最小值, 我们可以将MSE对β进行求导

(推导过程可见机器学习笔记:线性回归_UQI-LIUWJ的博客-CSDN博客 1)

令关于β的偏导为0,那么有:       

 

β*又称最小二乘法ordinary least squares (OLS)

 2.1 一定是极小值点嘛?

 但是,偏导为0不一定表示它就是最小值点,因为有可能是:

极小值点、极大值点、鞍点(在某一些维度是极小值,某一些维度是极大值)

那么,如何说明它是极小值点呢?

我们先回忆一下一元二次方程

 

对于多维度函数,我们考虑它的何塞矩阵(Hessian Matrix) 

 

我们回顾一下正定和负定:

正定性见:NTU 21fall-CE 7454(deep learning for data science)笔记_UQI-LIUWJ的博客-CSDN博客 2.10 

对于极小值、极大值和鞍点,我们有:

(直接类比,大于0相当于向上开口;小于零相当于向下开口)

 

 

 

 二阶偏导,也就是何塞矩阵,是一个半正定矩阵,我们从定义上就可以说明之:

        对任何一个非零向量z,

        令a=Xz,=a的每个维度的平方和,肯定大于等于0

        所以Hessian矩阵半正定,即一阶偏导为0的点是极小值点。

而又由于MSE是一个凸函数,所以极小值点也就是最小值点

 2.2 可逆吗?

        如果点的数量n比特征的维度p大,并且至少p个点是线性无关的,那么X^TX \in R^{P \times P} 满秩,即可逆 

        反之,如果特征的数量p比点的数量n多,那么X^TX \in R^{P \times P}不可逆

3 逻辑斯蒂回归

3.1 sigmoid 函数

将所有结果压缩到[0~1]上——可以用来进行二元分类,σ(x)表示了一个类的概率

3.2 交叉熵的引入

        对于一个随机变量,假设类别1的概率是θ,类别0的概率是1-θ

        那么,出现n次1和m次0的概率是:

        取log+极大似然估计,有:

         将上式对θ求导,有,结果也是符合直观的

 

         我们引入逻辑斯蒂回归的损失函数:交叉熵

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值