线性回归

最新推荐文章于 2022-06-20 00:04:13 发布

hermit1822

最新推荐文章于 2022-06-20 00:04:13 发布

阅读量190

点赞数

分类专栏：自学文章标签：自学

原文链接：https://blog.csdn.net/qq_35740095/article/details/88066655

版权

自学专栏收录该内容

9 篇文章 0 订阅

订阅专栏

一.线性回归

线性回归的数据集的形式为多个属性X与一个对应的Y，目的是求解X与Y之间的线性映射关系，优化求解参数的目标是降低预测值与Y之间的差别，“差别”的度量方式有很多种（如均方误差，均方根误差等等），其中若属性X只有一个，则在X，Y组成的二维空间下求解最小二乘法来估计参数。若属性X为多个，则可以写出均方误差的矩阵形式，通过正规化来求解，当求解不唯一的时候需要使用正则化等手段进一步约束并求解参数。
一般矩阵形式：f(x)=wTx+b。

二.线性回归的损失函数、代价函数、目标函数

损失函数：对单个样本的误差，即其真实值和预测值间的差距。
代价函数：整个训练集所有损失之和的平均值。
目标函数：代价函数加上正则化项。

三.参数解析求解

均方误差的高斯噪声模型假设
均方误差可看作高斯噪声模型的假设下的最大似然解
目标函数推导
下图第一行：回归方程（含均方误差），期望均方误差最小
第二行：高斯分布的均方误差的概率密度函数
第三行：代换掉均方误差的概率密度函数，由回归方程，用y、θ、x将均方误差替换，即变为求最优的θ
第四式子：θ的似然函数

接上图，下图第一式子：转为θ的对数似然函数，求所有概率乘积最大值，即要让第六式子最小
第二式子：目标函数，取最小值
目标函数推导
下图为解析求解推导。
梯度下降求解
sgd随机梯度下降，计算全部样本随机下降
批量梯度下降，批量样本，速度快，可在线分批次。
mini-batch折中梯度下降，小批量样本，速度快，可在线分批次。
L1、L2正则
如下图，惩罚因子，θ平方损失即L2正则（ridge），目标函数要最小，则大的θ值被砍掉，防止过拟合。
换成θ绝对值损失为L1正则（lasso），一般不如ridge效果好。
线性回归的评估指标
1）残差平方和（SSE）：真实值与预测值之差的平方和。SSE越小越好，越小说明模型拟合越好。
（2）判定系数（R2）:回归平方和占总平方和的比例，等于回归平方和（SSR）/总平方和（SST）,又等于1—SSE/SST。判定系数测度了回归直线对观测数据的拟合程度。判定系数越大，说明线性回归方程拟合的越好。
线性回归sklearn参数
LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=1)
(1)fit_intercept:是否有截据，如果没有则直线过原点。默认为True.

说明：是否对训练数据进行中心化。如果该变量为false，则表明输入的数据已经进行了中心化，在下面的过程里不进行中心化处理；否则，对输入的训练数据进行中心化处理。

(2)normalize:是否将数据归一化。

(3)copy_X:默认为True，当为True时，X会被copied,否则X将会被覆写.。（即经过中心化，标准化后，是否把新数据覆盖到原数据上）。

(4)n_jobs:默认值为1。计算时使用的核数。

hermit1822

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
线性回归

一.线性回归线性回归的数据集的形式为多个属性X与一个对应的Y，目的是求解X与Y之间的线性映射关系，优化求解参数的目标是降低预测值与Y之间的差别，“差别”的度量方式有很多种（如均方误差，均方根误差等等），其中若属性X只有一个，则在X，Y组成的二维空间下求解最小二乘法来估计参数。若属性X为多个，则可以写出均方误差的矩阵形式，通过正规化来求解，当求解不唯一的时候需要使用正则化等手段进一步约束并求解参...
复制链接

扫一扫