机器学习笔记3：线性回归模型

最新推荐文章于 2022-09-25 10:06:46 发布

陆撄宁

最新推荐文章于 2022-09-25 10:06:46 发布

阅读量292

点赞数

分类专栏：机器学习文章标签：线性回归算法优化

本文链接：https://blog.csdn.net/u011195077/article/details/80721173

版权

机器学习专栏收录该内容

9 篇文章 1 订阅

订阅专栏

在上一篇中，我们介绍了机器学习任务的一般步骤。现在我们对具体任务进行讲解

文章目录

#一、模型#
给定训练数据集

\textit{D}=\left \{ \mathbf{x}_{i} ,y_{i}\right \}_{i=1}^{N}

,其中

y\in \mathbb{R}

。回归学习一个从输入

\mathbf{x}

到输出

y

的映射

f

。当增加新的数据集时，用学习到的映射

f

对其进行预测

\hat{y}=f(\mathbf{x})

。若是学习到的这个映射

f

是一个线性函数：

$\hat{y}=f(\mathbf{x}|\mathbf{w})=\mathbf{w^{T}}\mathbf{x}$

则我们称之为线性回归模型。
##1.目标函数##
前面我们已经提过，目标函数通常包括两项：损失函数和正则项
这里写图片描述
其中，我们的L2损失就使用到残差平方和（residual sum of squares,RSS):

$RSS=\sum_{i=1}^{N}(y_{i}-\hat{y_{i}})=\sum_{i=1}^{N}(y_{i}-\mathbf{w^{T}x_{i}})^{2}$
　　　　　　　　　　　
（1）、最小二乘线性回归（Ordinary Least Square，OLS）：　
　　　　由于线性模型比较简单，所以当 $R(\theta)=0$ 时，目标函数为
　　　　
　　　　　　　　　　　 $J(\mathbf{w})=\sum_{i=1}^{N}L(y_{i},\hat{y_{i}})=\sum_{i=1}^{N}(y_{i}-\hat{y_{i}})=\sum_{i=1}^{N}(y_{i}-\mathbf{w^{T}x_{i}})^{2}$

（2）、岭回归（Ridge Regression）：
　　　　当正则项为L2时，即 $R(\theta)=\lambda ||\mathbf{w}||^{2}$ ，目标函数为
　　　　
　　　　　　　　　　　 $J(\mathbf{w})=\sum_{i=1}^{N}(y_{i}-\mathbf{w^{T}x_{i}})^{2}+\lambda ||\mathbf{w}||^{2}$ 　　
　　　　　　　　　　　
（3）、Lasso模型：
　　　　当正则项为L1时，即 $R(\theta)=\lambda |\mathbf{w}|$ ，目标函数为
　　　　
　　　　　　　　　　　 $J(\mathbf{w})=\sum_{i=1}^{N}(y_{i}-\mathbf{w^{T}x_{i}})^{2}+\lambda |\mathbf{w}|$
　　　　　　　　　　　
##2.概率解释##
（１）、最小二乘（线性）回归等价于极大似然估计
假设$y=f(x)+\varepsilon =\mathbf{w^{T}x}+\varepsilon $，其中$ \varepsilon $为线性预测值与真值之间的残差，我们通常假设这个残差服从高斯分布，$ \varepsilon \sim N(0,\sigma ^{2})$.因此线性回归可以写成：

$p(y|\mathbf{x},\mathbf{\theta })\sim N(y|\mathbf{w^{T}x},\sigma ^{2})$ ，其中 $\theta=(\mathbf{w},\sigma ^{2})$
　　　　　　　　　　　　　　
我们复习下极大似然估计（Maximize Likelihood Estimator,MLE）的定义：

$\hat{\theta} = \underset{\theta}{argmax}\; \log{}\, p(D|\theta)$
其中（log）似然函数为：

$l(\theta)=\log\;p(D|\theta)=\sum_{i=1}^{N}\log\, p(y_{i}|x_{i},\theta)$ 　　
　　　　　　　　　　　　　　
表示在参数为 $\theta$ 的情况下，数据 $\textit{D}=\left \{ \mathbf{x}_{i} ,y_{i}\right \}_{i=1}^{N}$ 出现的概率。极大似然就是选择数据出现概率最大的参数。
线性回归法MLE：

$p(y_{i}|\mathbf{x}_{i},\mathbf{w},\sigma ^{2})=N(y_{i}|\mathbf{w^{T}}\mathbf{x}_{i},\sigma ^{2})=\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{1}{2\sigma ^{2}}((y_{i}-\mathbf{w^{T}}\mathbf{x}_{i})^{2}))$ 　
　　　　　　　　　
因为OLS的似然函数为：

$l(\theta)=\log\;p(D|\theta)=\sum_{i=1}^{N}\log\, p(y_{i}|x_{i},\theta)$ 　　
　　　　　　　　　　　　　　
又因为极大似然可等价地写成极小负log似然损失（negative log likelihood，NLL）：

$NLL(\theta)=-\sum_{i=1}^{N}\log\, p(y_{i}|x_{i},\theta)$
　　　　　　　　　　　　　　　　　 $=-\sum_{i=1}^{N}\log[\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{1}{2\sigma ^{2}}((y_{i}-\mathbf{w^{T}}\mathbf{x}_{i})^{2}))]$
　　　　　　　　　　　　　　　　　 $=\frac{N}{2}\log(2\pi \sigma ^{2}) + \frac{1}{2\sigma ^{2}}\sum_{i=1}^{N}(y_{i}-\mathbf{w^{T}}\mathbf{x}_{i})^{2}$ 　　
　　　　　　　　　　　　　　　　　
最大化似然公式L(θ)相当于最小化 $NLL(\theta)\sim \sum_{i=1}^{N}(y_{i}-\mathbf{w^{T}}\mathbf{x}_{i})^{2}$ 等价于最小二乘回归 $J(\mathbf{w})$

（2）、正则回归等价于贝叶斯分布
假设残差分布 $\varepsilon \sim N(0,\sigma ^{2})$ ，线性回归可以写成

$p(y|\mathbf{x},\mathbf{\theta })\sim N(y|\mathbf{w^{T}x},\sigma ^{2})$
　　　　　　　　　　　　　　 $p(y_{i}|\mathbf{x}_{i},\mathbf{w},\sigma ^{2})=N(y_{i}|\mathbf{w^{T}}\mathbf{x}_{i},\sigma ^{2}\mathbf{I}_{N})\propto exp(-\frac{1}{2\sigma ^{2}}[(\mathbf{y}-\mathbf{Xw})^{T}(\mathbf{y}-\mathbf{Xw})])$ 　
　　　　　　　　　　　　　　
ａ、假设 $\mathbf{w}$ 的先验分布为高斯分布 $\mathbf{w} \sim N(0,\tau ^{2})$

所以　　　　　　　　　　　　 $p(\mathbf{w})=\prod_{j=1}^{D}N(\mathbf{w}_{j}|0,\tau ^{2})\propto exp(-\frac{1}{2\tau^{2}}\sum_{j=1}^{D}\mathbf{w}^{2}_{j})=exp(-\frac{1}{2\tau^{2}}[\mathbf{w}^{T}\mathbf{w}])$

其中 $1/\tau ^{2}$ 控制先验的强度
根据贝叶斯公式公式，得到参数的后验分布为

$p(\mathbf{w}|\mathbf{X},\mathbf{y},\sigma ^{2}) \propto p(y_{i}|\mathbf{x}_{i},\mathbf{w},\sigma ^{2})p(\mathbf{w})$
　　　　　　　　　　　　　　　　　　　　　 $exp(-\frac{1}{2\sigma ^{2}}[(\mathbf{y}-\mathbf{Xw})^{T}(\mathbf{y}-\mathbf{Xw})]-\frac{1}{2\tau^{2}}[\mathbf{w}^{T}\mathbf{w}])$ 　
　　　　　　　　　　　　　　　　　　　　　
为方便计算，取对数 $\log p(\mathbf{w}|\mathbf{X},\mathbf{y},\sigma ^{2})$ 得到最大后验估计（MAP）等价于最小目标函数

$J(\mathbf{w})=(\mathbf{y}-\mathbf{Xw})^{T}(\mathbf{y}-\mathbf{Xw})+\frac{\sigma ^{2}}{\tau ^{2}}\mathbf{w}^{T}\mathbf{w}$ 　
　　　　　　　　　　　　　　
对比下岭回归的目标函数

$J(\mathbf{w})=\sum_{i=1}^{N}(y_{i}-\mathbf{w^{T}x_{i}})^{2}+\lambda ||\mathbf{w}||^{2}$ 　
b、假设 $\mathbf{w}$ 的先验分布为Laplace分布 $\mathbf{w} \sim N(0,b)$

所以　　　　　　　　　　　　 $p(\mathbf{w})=\prod_{j=1}^{D}N(\mathbf{w}_{j}|\mu ,b)= \frac{1}{2b}exp(\frac{|\mathbf{w}-\mu|}{b})$

$=\prod_{j=1}^{D}N(\mathbf{w}_{j}|0 ,b) \propto exp(\frac{|\mathbf{w}|}{b})$
　　　　　　　　　　　　　　　　　
根据贝叶斯公式公式，得到参数的后验分布为

$p(\mathbf{w}|\mathbf{X},\mathbf{y},\sigma ^{2}) \propto p(y_{i}|\mathbf{x}_{i},\mathbf{w},\sigma ^{2})p(\mathbf{w})$
　　　　　　　　　　　　　　　　　　　　　 $exp(-\frac{1}{2\sigma ^{2}}[(\mathbf{y}-\mathbf{Xw})^{T}(\mathbf{y}-\mathbf{Xw})]-\frac{1}{b}|\mathbf{w}|)$
　　　　　　　　　　　　　　　　　　　　
为方便计算，取对数 $\log p(\mathbf{w}|\mathbf{X},\mathbf{y},\sigma ^{2})$ 得到最大后验估计（MAP）等价于最小目标函数

$J(\mathbf{w})=(\mathbf{y}-\mathbf{Xw})^{T}(\mathbf{y}-\mathbf{Xw})+\frac{2\sigma ^{2}}{b}|\mathbf{w}|$ 　
　　　　　　　　　　　　　　
对比下Lasso回归的目标函数

$J(\mathbf{w})=\sum_{i=1}^{N}(y_{i}-\mathbf{w^{T}x_{i}})^{2}+\lambda |\mathbf{w}|$
#二、优化求解#
优化求解的目的是根据训练数据求目标函数取极小值的参数

$\mathbf{\hat{w}}=\underset{\mathbf{w}}{arg\, min}J(\mathbf{w})$
目标函数求极小值的方法：

一阶导数为0 ： $\frac{\partial J(\mathbf{w})}{\partial \mathbf{w}}=0$
　　二阶导数>0： $\frac{\partial^2 J(\mathbf{w})}{\partial \mathbf{w}^2}> 0$
　　
##1.OLS的优化求解##

$J(\mathbf{w})=\sum_{i=1}^{N}(y_{i}-\mathbf{w^{T}x_{i}})^{2}=(\mathbf{y-wX})^{T}(\mathbf{y-wX})$
　　　　　　　　　　　　
　　我们的目标是求解 $\mathbf{w}$ ，所以只取关于 $\mathbf{w}$ 的部分，得到　
　　
　　　　　　　　　　　 $J(\mathbf{w})=\mathbf{w^{T}(X^{T}X)w-2w^{T}(Xy)}$
　　通过求导可得：
　　　　　　　　　　　 $\frac{\partial J(\mathbf{w})}{\partial \mathbf{w}}=\mathbf{2X^{T}X-2X^{T}y}=0$
　　　　　　　
　　　　　　　　　　　 $\mathbf{X^{T}Xw=X^{T}y}$
　　　　　　　
　　　　　　　　　　　所以： $\hat{\mathbf{w}}_{OLS}=\mathbf{(X^{T}X)^{-1}X^{T}y}$
　　　　　　　　　　　
　　这个式子可以通过奇异值分解（singular value decomposition，SVD）求解。
　　下面是SVD的表达：
　　　　　对 $X$ 进行奇异值分解： $\boldsymbol{X=U\Sigma V^{T}}$
　　　　　其中： $\mathbf{U^{T}U}=\mathbf{I}_{N}$ 为列正交
　　　　　 $\mathbf{VV^{T}}=\boldsymbol{V^{T}V}=\mathbf{T}_{D}$ 为行列均正交
　　　　　所以 $\mathbf{X^{T}=V\Sigma U^{T}}$
　　　　　
　　所以 $\hat{\mathbf{w}}_{OLS}=\mathbf{(X^{T}X)^{-1}X^{T}y}$
　　　　　　　 $＝\mathbf{(\Sigma ^{2})^{-1}V\Sigma U^{T}y}$
　　　　　　　 $＝\mathbf{V\Sigma ^{-1}U^{T}y}$
　　　　　　　
　　OLS除了使用SVD求解外，还可以使用梯度下降法求解，在上一章中，我们看到梯度下降法的基本步骤：

a.先确定学习率$\eta $，再给定初始值 $\theta^{0}$
　　　　b.计算目标函数在当前参数值的梯度： $\mathbf{\triangledown _{\theta}}=\frac{\partial J(\theta ^{t})}{\partial \theta }$
　　　　c.更新 $\theta$ ,使得 $J(\theta)$ 越来越小：
　　　　　　 $\mathbf{\theta }^{t+1} = \mathbf{\theta }^{t}-\eta \triangledown _{\theta}$
　　　　　　
　　对于我们的OLS函数： $J(\mathbf{w})=\sum_{i=1}^{N}(y_{i}-\mathbf{w^{T}x_{i}})^{2}$
　　则梯度为：
　　　　　　　　　　　　 $g(w)=\frac{\partial J(\mathbf{w})}{\partial \mathbf{w}}=\sum_{i=1}^{N}2(f(\mathbf{x}_{i})-y_{i})\mathbf{x}_{i}$
　　所以：
　　　　　　　　　　　　 $\mathbf{w }^{t+1} = \mathbf{w }^{t}-\eta \triangledown _{ \mathbf{w}}$
　　　　　　　　　　　　　　　 $\mathbf{w }^{t}-2\eta\sum_{i=1}^{N}(f(\mathbf{x}_{i})-y_{i})\mathbf{x}_{i}$
　　如此这样一直迭代下去。
##2.岭回归的优化求解##

岭回归的目标函数与最小二乘（OLS）只是相差一个正则项（ $\lambda ||\mathbf{w}||^{2}$ ）。所以类似的求解可得：
　　
　　　　　　　　　　　　 $\frac{\partial J(\mathbf{w})}{\partial \mathbf{w}}=\mathbf{2X^{T}X-2X^{T}y}-2\lambda \mathbf{w}^{T}=0$
　　　　　　　　　　　　
　　　　　　　　　　　　 $\hat{\mathbf{w}}_{rigde}=\mathbf{(X^{T}X+\lambda I_{D})^{-1}X^{T}y}$ 　
　　　　　　　　　　　　
##3.lasso的优化求解##

lasso的目标函数是： $J(\mathbf{w},\lambda )=RSS(\mathbf{w})+\lambda ||\mathbf{w}||_{1}$ ，但是该目标函数的正则项在 $\mathbf{w}_{j}=0$ 不可导，所以这里我们不能用梯度SVD求解，也不能用梯度下降法求解。
　　所以我们引入坐标轴下降法。
　　a、在使用坐标下降法之前，我们想了解下次微分的概念：
　　为了处理不平滑的函数，扩展导数的表示，定义一个（凸）函数 $f$ 在 $x_{0}$ 处的次梯度为一个标量c，使得：
　　
　　　　　　　　　　　　　　 $f(x)-f(x_{0})\geq c(x-x_{0})$
　　如下图：
这里写图片描述
　　定义区间 $[a, b]$ 的子梯度集合为：
　　
　　　　　　　　　　　　　　 $a=\lim_{x\rightarrow x_{0}^{-}}\frac{f(x)-f(x_{0})}{x-x_{0}},b=\lim_{x\rightarrow x_{0}^{+}}\frac{f(x)-f(x_{0})}{x-x_{0}}$ 　
　　　　　　　　　　　　　　
　　所有次梯度的区间称为函数 $f$ 在 $x_{0}$ 处的次微分(subdefferential)，用 $\partial f(x)|_{x_{0}}$ 表示
　　例如：绝对值函数 $f (x) = ∣ x ∣$ ，其梯度为
　　　　　　　　　　　　　　 $\partial f(x)=\begin{cases}\{-1\} & \text{ if } x<0 \\ [-1,+1]& \text{ if } x=0 \\ \{+1\}& \text{ if } x>0 \end{cases}$ 　
　　b、对lasso求导
　　　　目标函数： $J(\mathbf{w},\lambda )=RSS(\mathbf{w})=\sum_{i=1}^{N}(y_{i}-\mathbf{w}_{i}^{T}\mathbf{x}_{i})^{2}+\lambda ||\mathbf{w}||_{1}$
　　　　对 $w_{j}$ 求导：
　　　　　　　　　　　　　　 $\frac{\partial }{\partial w_{j}}RSS(\mathbf{w})=\frac{\partial }{\partial w_{j}}\sum_{i=1}^{N}(y_{i}-(\mathbf{w}^{T}_{-j}\mathbf{x}_{i,-j}+w_{j}x_{ij}))^{2}$
　　　　　　　　　　　　　　　　　　　　 $=-2\sum_{i=1}^{N}(y_{i}-\mathbf{w}^{T}_{-j}\mathbf{x}_{i,-j}-w_{j}x_{ij})x_{ij}$
　　　　　　　　　　　　　　　　　　　　 $=2\sum_{i=1}^{N}w_{j}x_{ij}^{2}-2\sum_{i-1}^{N}x_{ij}(y_{i}-\mathbf{w}^{T}_{-j}\mathbf{x}_{i,-j})$
　　　　　　　　　　　　　　　　　　　　　
　　令： $a_{j}=2\sum_{i=1}^{N}w_{j}x_{ij}^{2}$ ， $c_{j}=2\sum_{i-1}^{N}x_{ij}(y_{i}-\mathbf{w}^{T}_{-j}\mathbf{x}_{i,-j})$ ，其中 $(y_{i}-\mathbf{w}^{T}_{-j}\mathbf{x}_{i,-j})$ 是利用 $D - j$ 维特征得到的预测的残差，则 $c_{j}$ 为第 $j$ 维特征与残差的相关性之和
　　
　　故 $\frac{\partial }{\partial w_{j}}RSS(\mathbf{w})=a_{j}w_{j}-c_{j}$
　　
　　那么 $\partial _{w_{j}}J(w,\lambda )=(a_{j}w_{j}-c_{j})+\lambda \partial _{w_{j}}||\mathbf{w}||_{1}$ $=\begin{cases}\{a_{j}w_{j}-c_{j}-\lambda \} & \text{ if } w_{j}<0 \\ \{-c-\lambda ,-c_{j}+\lambda \}& \text{ if }w_{j}=0 \\ \{a_{j}w_{j}-c_{j}+\lambda\}& \text{ if } w_{j}>0 \end{cases}$
　　
　　当 $\partial _{w_{j}}J(w,\lambda )=0$ 时最优解　
　　
　　所以 $\hat{w}_{j}(c_{j}) =\begin{cases}(c_{j}+\lambda )/a_{j} & \text{ if } c_{j}<-\lambda \\ 0& \text{ if } c_{j}\in [\lambda ,\lambda ] \\ (c_{j}-\lambda )/a_{j} & \text{ if } c_{j}>\lambda \end{cases}$
　　
　　根据 $c_{j}$ 的不同， $\partial _{w_{j}}J(w,\lambda )=0$ 有以三种情况:
　　这里写图片描述
　　c、坐标轴下降法
　　
　　　　　1）、预计算 $a_{j}=2\sum_{i=1}^{N}x_{j}^{2}$
　　　　　2）、初始化参数 $\mathbf{w}$ (全0或者随机)
　　　　　3）、循环直到收敛：
　　　　　　　　--for j = 0,1,2…D
　　　　　　　　　　　·计算 $c_{j}=2\sum_{i-1}^{N}x_{ij}(y_{i}-\mathbf{w}^{T}_{-j}\mathbf{x}_{i,-j})$
　　　　　　　　　　　·更新 $w_{j}:\hat{w}_{j}(c_{j}) =\begin{cases}(c_{j}+\lambda )/a_{j} & \text{ if } c_{j}<-\lambda \\ 0& \text{ if } c_{j}\in [\lambda ,\lambda ] \\ (c_{j}-\lambda )/a_{j} & \text{ if } c_{j}>\lambda \end{cases}$
　　　　　　　　--选择变化幅度最大的维度进行更新
　　　
　　坐标轴下降法的特点：
　　　　· 为了找到一个函数的局部极小值，在每次迭代中可以在当前点处沿一个坐标方向进行一维搜索
　　　　·整个过程中循环使用不同的坐标方向。一个周期的一维搜索迭代过程相当于一个梯度迭代
　　　　
　　坐标轴下降法需要注意是：
　　　　· 梯度下降方法是利用目标函数的导数（梯度）来确定搜索方向的，而该梯度方向可能不与任何坐标轴平行。
　　　　·而坐标轴下降法是利用当前坐标系统进行搜索，不需要求目标函数的导数，只按照某一坐标方向进行搜索最小值。（在稀疏矩阵上的计算速度非常快，同时也是Lasso回归最快的解法）
　　　　
#三、模型评估与模型选择#

当模型训练好后，需要在校验集上采用一些度量准则检查模型预测的效果，可通过两个步骤去实现：
　　　1）校验集的划分（train_test_split、交叉验证）
　　　2）评价指标（sklearn.metrics）

在选择预测性能最好的模型过程中，我们还需要对模型中的一些超参数进行设置，如线性回归模型中的正则参数λ，以及例如OLS中的特征的数目等参数去选择模型。但是我们去确定参数时，是通过给定一定范围的数值作为输入的，该参数的搜索范围我们一般在Scikitlearn中使用的是网格搜索（GridSearch），且在Scikitlearn中，已经将交叉验证与网格搜索合并为一个函数：sklearn.model_selection.GridSearchCV。
　　在Scikitlearn中的modelselection模块提供的模型选择功能中，对于线性模型，留一交叉验证（N折交叉验证，亦称为leave-oneout cross-validation，LOOCV）有更简便的计算方式，因此Scikitlearn还提供了RidgeCV类和LassoCV类实现了这种方式。
　　
　　RidgeCV中超参数λ用alpha表示，RidgeCV(alphas=(0.1,1.0,10.0),
　　fit_intercept=True,normalize=False,scoring=None,cv=None,gcv_mode=None,store_cv_values=False)
　　
　　LassoCV的使用与RidgeCV类似，Scikitlearn还提供一个与Lasso类似的LARS（least angle regression，最小角回归），二者仅仅是优化方法不同，目标函数相同。有一点需要注意的是当数据集中特征维数很多且存在共线性时，LassoCV更合适。
　　
　　模型的评价指标，在上一章中，我们已经确定了有如下几种准则：
　　　（1）、开平均方误差（rooted mean squared error , RMSE）：RMSE= $\sqrt{\frac{1}{N}\sum_{i=1}^{N}(\hat{y_{i}}-y_{i})^{2}}$
　　　（2）、平均绝对误差（mean absolute error, MAE）：MAE= $\frac{1}{N}\sum_{i=1}^{N}|\hat{y_{i}}-y_{i}|$
　　　（3）、R2 score：即考虑预测值和真值之间的差异，也考虑了问题本身真值之间的差异（scikit learn线性回归的缺省评价准则）
　　　　　　　　 $SS_{res}=\sum_{i=1}^{N}(\hat{y_{i}}-y_{i})^{2}$
　　　　　　　　 $SS_{tot}=\sum_{i=1}^{N}(y_{i}-\bar{y})^{2}$
　　　　　　　　 $R^{2}=1-\frac{SS_{res}}{SS_{tot}}$
　　所以， $R^{2}$ 越大，模型越好。
　　
　　我们的模型评估和选择，是在Scikitlearn上面做的，这个工具包封装了比较好的API，非常方便我们使用，下面是几种比较常见的API，有兴趣的话，可以去官方文档看下。
这里写图片描述

在模型的评价中，除了上述的指标外，我们也可以通过可视化将更为直观的将结果显示出来，比如
　　1）检查残差的分布
　　2）打印出预测值与真值的散点图
　　
　比如波士顿房价中预测残差的分布图：
这里写图片描述
前面我们已经说过，极大似然估计假设残差的分布正是为0均值的正态分布。上图中，残差也近似0均值的正太分布，说明拟合的还可以。
在看下预测值与真值的散点图：

当散点图如上所示，说明预测值和真值之间相关性很强，也说明模型效果愈佳。

陆撄宁

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记3：线性回归模型

在上一篇中，我们介绍了机器学习任务的一般步骤。现在我们对具体任务进行讲解模型1、目标函数2、概率解释优化求解模型评估与模型选择模型给定训练数据集D={xi,yi}Ni=1D={xi,yi}i=1N\textit{D}=\left \{ \mathbf{x}_{i} ,y_{i}\right \}_{i=1}^{N} ,其中y∈Ry∈Ry\in \mathbb...
复制链接

扫一扫