深度学习-2.机器学习基础

小坤兽

已于 2022-03-22 14:39:58 修改

阅读量207

点赞数

分类专栏： deep learning 文章标签：深度学习机器学习

于 2021-09-26 12:59:44 首次发布

本文链接：https://blog.csdn.net/bingokunkun/article/details/120452933

版权

deep learning 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

机器学习问题举例

分类问题
输入确实的分类问题
回归问题
转录问题
- 机器学习系统观察到一系列非结构化的数据，并转录成离散的文本形式。
- 如将街道门牌图片转化成数字、语音识别等
机器翻译
结构化输出
- 将数据输出成向量或其他数据结构，这些结构之间还拥有重要的关系
- 将图片转换成文字描述，标注航拍照片中的道路位置等
异常检测
- 样本数量及其不均衡的分类问题，且在样本分布上也拥有分类问题所没有的分布特征
合成与采样
- 通过已有的样本生成新样本
…

性能度量P

TP: True Positive,将正类预测类正类的样本数量
FN: False Negtive,将正类预测为负类的样本数量
FP: False Positive,将负类预测为正类的样本数量
TN: True Negtive,将负类预测为负类的样本数量

准确率ACC
$\frac{TP + TN}{TP+TN+FP+FN}$
精确度precision
$\frac{TP}{TP+FP}$
召回率
$\frac{TP}{TP+FN}$

其他指标将在后续文章中

容量、过拟合和欠拟合

定义

泛化：在先前没有预测到的数据输入上表现良好的能力
训练误差
$trainning\space\space error = \frac{||X^{(train)}\omega - y^{(train)}||^2_2}{m^{train}}$
测试误差
$test\space \space error = \frac{||X^{(test)}\omega - y^{(test)}||^2_2}{m^{test}}$
容量：模型拟合各种函数的能力。
过拟合：训练误差和测试误差之间的差距较大
欠拟合：由于训练次数不足导致的训练误差较大
假设空间：学习算法可以选择为解决方案的函数集，是一种控制训练算法容量的方法。

性质

通过调整容量，可以防止出现过拟合和欠拟合。
通过改变输入特征的数量和加入特征对应的参数可以改变模型的容量。
模型的选择也会影响模型的容量，这部分被影响的容量被称为表示容量，通常情况下，从函数族中挑选出一个最优函数来拟合样本分布是很难的一件事，因此实际上的学习算法不会真的找到最优函数，而是找到一个可以大大降低训练误差的函数。
如果优化算法不完美，则该学习算法的有效容量将小于模型族的表示容量

监督学习算法

概率监督学习——逻辑回归（Logistic Regression）

基本思想

通过定义一族不同的概率分布，可以将线性回归推广到分类情况中。
如果有两个类0和1，则类1的概率决定了类0的概率，因为 $P (Y = 1) = 1 - P (Y = 0)$ 。同时线性回归的分布是用均值参数化的而二元变量的分布必须是在0到1之间。解决这个问题的办法是使用logistic sigmoid函数，即 $\frac{1}{1+e^{-(x-\mu)/y}}$

详解

1.预测函数

对于一个二分类问题，假设决策边界是 $\omega x + b = 0$ ，对任意一个 $\in dataSet$ ，预测函数为 $\frac{1}{1+e^{-(\omega\top x + b)}}，y\in [0,1]$
经过简化得到
$ln\frac{y}{1-y} = \omega\top x + b$
令y表示x被分为1类，则1-y表示x被分为0类，重写概率公式，则
$\omega\top x + b = ln\frac{P(Y=1|x)}{1-P(Y=1|x)}$
$=\frac{1}{1+e^{-(\omega\top x + b)}}$

2.代价函数

逻辑回归使用极大似然估计法来求解，即找到一组参数使得数据的似然度（概率）最大。
由于 $P (Y = 1 ∣ x) = p (x) ， P (Y = 0 ∣ x) = 1 - p (x)$
似然函数 $L(\omega)=\prod[p(x_i)]^{y_i}[1-p(x_i)]^{1-y_i}$
为了方便求解，将两侧取对数，同时取整个数据集上的平均似然损失，则可以得到损失函数：
$J(\omega) = -\frac{1}{N}lnL(\omega)$

支持向量机SVM

基本思想

在二维空间内，当两类样本线性可分时，有一条直线可以将两类样本完全分隔开。扩展到高维度同样适用，只不过直线在三维会进化成平面，在更高维被称为超平面。
支持向量机的最终目的就是找到最大间隔的超平面。

详解

1.超平面方程

我们将超平面定义为 $\omega\top x + b = 0$ ，空间中的点到直线距离公式为 $\frac{|\omega\top x+b|}{||\omega||}$
令所有点中距离超平面最近的距离为 $d_{min}$ ，
则在超平面一侧的点显然有 $\omega\top x + b > 0$ ，我们将其成为类1，即y=1，这些点满足 $\omega\top x + b \gt ||\omega||d_{min}$ ；
另一侧有 $\omega\top x + b < 0$ ，我们将其称为类-1，即y=-1，这些点满足 $\omega\top x + b \lt -||\omega||d_{min}$ 。
将两个式子合并，可以得到 $\frac{y*(\omega\top x + b)}{||\omega||}\ge d_{min}$
其中 $y*(\omega\top x + b)$ 被称为支持向量。
如下图所示，我们假设超平面 $H_1,H_2$ 的方程分别为 $\omega\top x + b=1,\omega\top x + b=-1$ ，则在 $H_1,H_2$ 上的点是能够计算出 $d_{min}$ 的点，此时由于支持向量经过计算的值为1，得到 $d_{min}=\frac{1}{||\omega||}$
我们的目标就是最大化这个值，为了方便计算，我们将最大化 $\frac{1}{||\omega||}$ 变成最小化 $\frac{1}{2}||\omega||^2$ ，这一步处理完全是为了简化计算，最终求出的结果是相同的。
请添加图片描述
最终，我们的最优化问题的函数为 $\min{\frac{1}{2}||\omega||^2} \space \space \space s.t. \,\ y_i(\omega\top x_i + b) \ge 1$

2.对偶问题与KKT条件

非常详细

3.优化方法

构造拉格朗日函数
$\min_{\omega,b} \max_{\lambda}L(\omega,b,\lambda)=\frac{1}{2}||\omega||^2 + \sum_{i=1}^n\lambda_i[1-y_i(\omega x_i + b)]\space \space s.t. \space \lambda_i \ge 0$
使用强对偶性转化成 $\max_{\lambda}\min_{\omega,b}L(\omega,b,\lambda)$
对于 $\min_{\omega,b}L(\omega,b,\lambda)$ 求偏导后，将偏导置零带入后得到结果：
请添加图片描述
显然，经过化简后的问题转化成了求：
$\max_{\lambda}[\sum_{j=1}^n\lambda_i - \frac{1}{2}\sum^n_{i=1}\sum_{j=1}^n\lambda_i\lambda_jy_iy_j(x_ix_j)]\space\space\\ s.t. \space\space \sum_{i=1}^n\lambda_i[1-y_i(\omega x_i + b)]= 0 \space\space\lambda_i \ge 0$
使用SMO算法每轮迭代一个参数，直至收敛，可以得到 $\lambda$ ，通过偏导为零的条件能够计算出 $\omega, b$ 。