线性回归（原理推导）

最新推荐文章于 2024-05-20 08:46:52 发布

zxiaohui666

最新推荐文章于 2024-05-20 08:46:52 发布

阅读量967

点赞数

分类专栏：学习日记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38517310/article/details/79415658

版权

学习日记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.方程式表示：

数学形式：

矩阵形式：

其中，X矩阵是m行（n+1）列的，每一行是一个样本，每一列是样本的某一个特征

矩阵（n+1）行1列的，它是X的权重，也是线性回归要学习的参数.

2.损失函数（Loss function）

对数极大似然和最小二乘的联系：

由线性函数的假设知道，噪音项满足高斯分布，其中一个样本的正态分布的数学表达为：

那么，通过极大估计求得似然函数为所有样本的乘积，如下：

经过数学运算和推导，求极大似然的最大值可以转化为求其log函数的最大值，推导过程如下：

要使得极大似然取得极大值，上式中的后一项就要最小，也可以将求线性回归的极大似然转化为求最小二乘的最小值，也就是常见到的线性函数的最小二乘求损失函数的数学形式：

由此就得到了线性函数的loss function

3.线性函数算法：求解参数

机器算法的目的就是通过建立模型并通过选择合适的算法来求出参数

下的y和实际的Y之间的差值尽量的小，也就是预测的准确率在训练集和测试集足够高

3.1 当矩阵

可逆（满秩）时，通过normal equation可以直接求解

目标函数转化为矩阵形式：

对其求导并求驻点

另上式为0，可求得

此算法的缺点是：当矩阵很大是，计算非常耗时且占用资源

3.2 当矩阵

不可逆（非满秩）时，通过梯度下降求解

初始化

，沿着负梯度方向进行迭代，知道

变化很小或者不变化

梯度下降中设计到的参数是，步长alpha，迭代次数t，这些对于计算最终的

都会影响，所以需要调参优化。

常用的梯度下降算法有SGD,BGD,mBGD,实际中以mBGD使用最多

4.线性回归防止overfitting

机器学习最忌讳的是死记硬背，像考试一样平时学习只记得死答案了，在考试的时候就不会做题目了，为了灵活变通，overfitting的方法就出现了，线性回归中最常用的是引入正则化项，也就惩罚项，给损失函数的参数

赋予一个约束项，使其不能任意的无限大或者无限小，加入正则化损失函数变为：

4.1当矩阵满秩时，引入正则项后的

变为：

4.2当矩阵不满秩时，引入正则项后的

变为：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
线性回归（原理推导）

1.方程式表示：数学形式：矩阵形式：其中，X矩阵是m行（n+1）列的，每一行是一个样本，每一列是样本的某一个特征矩阵（n+1）行1列的，它是X的权重，也是线性回归要学习的参数.2.损失函数（Loss function）对数极大似然和最小二乘的联系：由线性函数的假设知道，噪音项满足高斯分布，其中一个样本的正态分布的数学表达为：那么，通过极大估计求得似然函数为所有样本的乘积，如下：经过数学运算和推导，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。