机器学习总结

deeeeeeplearning

于 2021-06-15 23:43:31 发布

阅读量288

点赞数

分类专栏： machine learning

本文链接：https://blog.csdn.net/qq_42153494/article/details/117934238

版权

machine learning 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文概述了机器学习的基础理论，包括将学习问题视为优化问题，通过期望风险极小化和经验风险极小化进行模型训练。探讨了泛化能力，介绍了大数定律和Hoeffding不等式在理解泛化误差中的作用，并讨论了过拟合现象。同时，提到了正则化作为缓解过拟合的策略。最后，简要提及了SVM和支持向量机的应用。

摘要由CSDN通过智能技术生成

0 前言

机器学习是人工智能的核心，从历史数据中学习信息，总结规律。
学会概率论与数理统计，矩阵分析以及凸优化，机器学习就掌握了大部分。
其中贝叶斯，梯度下降，svd分解在机器学习中较为常用。

1理论部分

1.1 优化问题

机器学习可以抽象为优化问题
未知函数 $:x\to y$
数据集 $\mathcal{D} (x_i,y_i)$
假设函数类 $\mathcal{H},h\in \mathcal{H}$ 看成约束
损失函数 $loss(h(x_i),y_i)$
$min_h \quad \mathbb{E}^D(loss(h(x_i),y_i)\\ s.t \quad h\in \mathcal{H}$
上述问题称为期望风险极小化，但是实际情况，我们不知道所有数据集，只有样本，上述问题转为
$min_h \quad \frac{1}{n}\sum_i^n(loss(h(x_i),y_i)\\ s.t \quad h\in \mathcal{H}.$
称为经验风险极小化。
在这里插入图片描述
从概率角度解释
存在一个未知分布 $(x,y)\sim P(X,Y)$ ，
极大似然估计：极大化后验概率 $p (y ∣ x)$

1.2 泛化

用样本得到的模型再样本之外的数据集性能表现称为泛化。
$\mathbb{E}_{in}$ ：样本期望误差
$\mathbb{E}_{out}$ ：样本之外数据点的期望误差
大数定理，Hoeffding’s inequality
$P[(|\mathbb{E}_{in}(h)-\mathbb{E}_{out}(h)|)>\epsilon]\leq 2e^{-2\epsilon^2m}$
m为样本个数。
$g$ 为最优 $h$
对于有限的 $\mathcal{H}$
$P[(|\mathbb{E}_{in}(g)-\mathbb{E}_{out}(g)|)>\epsilon]\\\leq P[(|\mathbb{E}_{in}(h_1)-\mathbb{E}_{out}(h_1)|)>\epsilon]+P[(|\mathbb{E}_{in}(h_2)-\mathbb{E}_{out}(h_2)|)>\epsilon]+...\\ \leq 2|\mathcal{H}|e^{-2\epsilon^2m}$
对于无限的 $\mathcal{H}$
$P[(|\mathbb{E}_{in}(g)-\mathbb{E}_{out}(g)|)>\epsilon]\leq 4 m_{\mathcal{H}}(2N)e^{-\frac{1}{8}\epsilon^2N}$
$m_{\mathcal{H}}(N)$ 为增长函数，表示对于 $N$ 个数据点可以将数据分为几类。
$k$ 为断点，当 $N < k$ 时可以被完全粉碎，即分为 $2^N$ 类。
$d_{vc}=k-1$
二分类问题最多显然为 $2^N$ 类，不同的假设函数类分类能力不同，如下例子。
$m_{\mathcal{H}}(N)\leq \sum_{i=0}^{k-1}C_N^i$
在这里插入图片描述

在这里插入图片描述

给定误差限 $\delta$
$\mathbb{E}_{out}\leq \mathbb{E}_{in}+\sqrt{\frac{8}{N}ln(\frac{4((2N)^{d_{vc}}+1)}{\delta})}$
降低置信度，增大训练集，慎选假设函数集来提升泛化。

1.3 过拟合

在这里插入图片描述
正则化

1.4 优化算法

一阶算法，二阶算法，牛顿，拟牛顿

2 应用

2.1 SVM

到直线距离最大

2.2 decision tree

未完待续

deeeeeeplearning

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
机器学习总结

机器学习总结1 前言2 优化问题3 泛化4 过拟合5 优化6 SVM7 decision tree1 前言机器学习是人工智能的核心，从历史数据中学习信息，总结规律。学会概率论与数理统计，矩阵分析以及凸优化，机器学习就掌握了大部分。其中贝叶斯，梯度下降，svd分解在机器学习中较为常用。2 优化问题机器学习可以抽象为优化问题未知函数f:x→yf :x\to yf:x→y数据集D(xi,yi)\mathcal{D} (x_i,y_i)D(xi,yi)假设函数类H,h∈H\mathcal{
复制链接

扫一扫

专栏目录