sklearn分类算法SGDclassifier

最新推荐文章于 2025-04-24 13:58:49 发布

patrickpdx

最新推荐文章于 2025-04-24 13:58:49 发布

阅读量4.2k

点赞数 1

分类专栏： sklearn学习系列文章标签：深度学习机器学习逻辑回归 python

本文链接：https://blog.csdn.net/Jinyindao243052/article/details/107726718

版权

sklearn学习系列专栏收录该内容

13 篇文章

订阅专栏

未完待续，欢迎大家点赞收藏关注博主，谢谢支持

SGD的数学细节

给定一系列训练数据:

$(x_1, y_1), \ldots, (x_n, y_n)$ 其中 $x_i \in \mathbf{R}^m$ 是点的坐标， $y_i \in \mathcal{R}$ ( $y_i \in\{-1, 1\}$ )是分类标签。

我们的目标是训练出一个线性评价函数 $f(x) = w^T x + b$ ，模型参数为 $\in \mathbf{R}^m$ ，截距为 $\in \mathbf{R}$ .
给0-1分类做预测,时我们看 $f (x)$ 的符号. 模型参数通过最小化由以下式子给出的正则化训练误差来得到：
$\frac{1}{n}\sum_{i=1}^{n} L(y_i, f(x_i)) + \alpha R(w)$
$L$ 是一个损失函数，衡量了模型的拟合程度， $R$ 是一个正则化项（也叫作惩罚），对系统的复杂性进行惩罚; $\alpha>0$ is a 非负的超参数，控制了正则化的强度。
对 $L$ 的不同选择可以实现不同的分类器或回归器:

Hinge (soft-margin): equivalent to Support Vector Classification: $L(y_i, f(x_i)) = \max(0, 1 - y_i f(x_i))$ .
Perceptron: $L(y_i, f(x_i)) = \max(0, - y_i f(x_i))$ .
Modified Huber: $L(y_i, f(x_i)) = \max(0, - y_i f(x_i))$ , if $y_i f(x_i) >1$ and $L(y_i, f(x_i)) = -4 y_i f(x_i)$ otherwise.
Log: equivalent to Logistic Regression. $L(y_i, f(x_i)) = \log(1 + \exp (-y_i f(x_i)))$ .
Least-Squares: Linear regression (Ridge or Lasso depending on R). $|y_i - f(x_i)| \leq \varepsilon$ .
Huber: less sensitive to outliers than least-squares. It is equivalent to least squares when $|y_i - f(x_i)| \leq \varepsilon$ and $L(y_i, f(x_i)) = \varepsilon |y_i - f(x_i)| - \frac{1}{2}\varepsilon^2$ , otherwise.
Epsilon-Insensitive: (soft-margin) equivalent to Support Vector Regression. $L(y_i, f(x_i)) = \max(0, |y_i - f(x_i)| - \varepsilon)$ .

上述所有损失函数都可以视为错误分类错误（0-1 损失）的上限，如下图所示。

正则化项 ( penalty 参数) 的选择包括如下几种形式:

L2 norm: $\frac{1}{2} \sum_{j=1}^{m} w_j^2 = ||w||_2^2$
L1 norm: $\sum_{j=1}^{m} |w_j|$ .这导致稀疏的解
Elastic Net: $\frac{\rho}{2} \sum_{j=1}^{n} w_j^2 +(1-\rho) \sum_{j=1}^{m} |w_j|$ , L2 和 L1的凸组合, 其中 $\rho$ 为 1 - l1_ratio.

下图显示了二维参数空间中不同正则化项的轮廓 ( $m = 2$ ) ，当 $R (w) = 1$ 时.

最小均方误差线性回归

问题描述：

输入一组带标签的样本集，一共有 $m$ 个数据: $\mathbf{x}_{1},\mathbf{x}_{2},\dots,\mathbf{x}_{m}$ ，对应的标签为向量 $\mathbf{y}=[{y}_{1},{y}_{2},\dots,y_{m}]$ ，每个样本 $\mathbf{x}_{i}$ 为一个 $d$ 维向量，代表 $d$ 个特征，标签为 $y_{i}$ (标量).
把数据集 $D$ 表示为一个 $\times d$ 大小的矩阵 $X$ ，其中每行对应于一个样本，该行的 $d$ 个元素对应于样本的 $d$ 个属性值:
$\left[ \begin{matrix} \mathbf{x}_{1} \\ \mathbf{x}_{2} \\ \vdots \\ \mathbf{x}_{m} \end{matrix} \right] \tag{3}$

其中 $\mathbf{x}_{i}=[x_{i,1},x_{i,2},\dots,x_{i,d}]$

我们的目标是通过学习得到一个线性评价函数
$f(\mathbf{x}_{i})=\mathbf{x}_{i}\mathbf{w}^{T}+b$
其中系数 $\mathbf{w} = [w_1, ..., w_d]$
截距为 $b$ (标量)
使得残差平方和： $\sum\limits_{i=1}^{m}(y_{i}-f(\mathbf{x}_{i}))^{2}=||f(X) - \mathbf{y}||_2^2=||X\mathbf{w}^T+b - \mathbf{y}||_2^2$ 最小

下面对最佳的 $\mathbf{w}$ 和 $b$ 求解
以下详细推导过程摘自南瓜书

算法

为了便于计算，我们我们把 $\mathbf{w}$ 和 b 合并成一个向量 : $\hat\mathbf{w}=[\mathbf{w},b]$ ，并把目标函数化成关于 $\hat\mathbf{w}$ 的形式

在这里插入图片描述

令 $E_{\hat\mathbf{w}}=(\mathbf{y}-\mathbf{X}\hat\mathbf{w})^{T}(\mathbf{y}-\mathbf{X}\hat\mathbf{w})$ , 下面令目标函数对 $\hat\mathbf{w}$ 求微分

令上式为零可得 $\hat\mathbf{w}$ 的最优解

参考文献

sklearn官方文档