机器学习知识点复习

机器学习知识点复习

1. 线性回归

1.1 什么是线性回归?

回归算法是一种有监督学习算法,用于构建一个算法模型(函数)来表示特征(自变量X)与标签(因变量Y)之间的映射关系,当X与Y之间为线性关系时,称其为线性回归模型,其表达式如下:
y ^ = w x + b \hat y=wx+b y^=wx+b
线性回归通过不断从数据集中学习参数w和b,最终得到一个最优的模型,使得预测值 y ^ \hat y y^ 与真实值 y y y 尽可能的接近。

1.2 线性回归的求解方法

1.2.1 最小二乘法

最小二乘法是一种数学优化方法,它通过最小化误差的平方和寻找数据的最佳函数匹配。

通常情况下,使用最小二乘法来估计回归方程中的回归系数,即模型中待学习的参数。

使用残差来衡量模型与数据点的拟合度,残差定义为真实值 y y y与模型预测值 y ^ \hat y y^ 之间的差异,损失函数定义为残差平方和,最小二乘法通过最小化残差平方和来找到最佳参数值。

将要求解的参数 w 和 b 看作是损失函数的自变量,则有:
L ( w , b ) = ∑ i = 1 n ( y ^ i − y i ) 2 = ∑ i = 1 n ( w x i + b − y i ) 2 L(w,b)= \sum \limits _{i=1}^n(\hat y_i - y_i) ^2= \sum \limits _{i=1}^n(wx_i+b-y_i) ^2 L(w,b)=i=1n(y^iyi)2=i=1n(wxi+byi)2
L ( w , b ) L(w,b) L(w,b)分别对w和b求导,得:
             在这里插入图片描述
令上述两式为0,可得到 w 和 b 最优解:
               在这里插入图片描述

1.2.2 梯度下降法

梯度下降法的基本思想是:要找到某函数的最小值,最好的方法是沿着该函数的负梯度方向(下降最快的方向)探索。

梯度下降法的过程如下(以求解线性回归模型参数为例):
                 在这里插入图片描述

  1. 初始化待求解的模型参数 w w w b b b
  2. 求解梯度,即损失函数关于模型参数的偏导数
  3. 通过给定的步长(学习率) α \alpha α 按上图公式对 w w w b b b进行更新
  4. 重复上述过程,直到迭代次数达到某个指定值或损失函数值达到某个允许范围,此时所得到的 w w w b b b即为所求的最终的模型参数。

1.3 三种梯度下降法的一般步骤过程,区别,优缺点

假设线性回归的模型的一般形式如下:
h θ ( x ) = ∑ j = 0 n θ j x j h_{\theta}(x)=\sum \limits_{j=0}^n\theta_jx_j hθ(x)=j=0nθjxj
对应的损失函数为:
J ( θ ) = 1 2 m ∑ i = 1 m ( y ( i ) − h θ ( x ( i ) ) ) 2 J(\theta)=\frac{1}{2m}\sum \limits_{i=1}^m(y^{(i)}-h_{\theta}(x^{(i)}))^2 J(θ)=2m1i=1m(y(i)hθ(x(i)))2

1.3.1 批量梯度下降法BGD(Batch Gradient Descent)

(1) 基本思想:

  • 每次迭代时,利用所有样本计算梯度来对参数进行更新

(2) 数学形式:

  • 将损失函数对待求参数求偏导得: ∂ J ( θ ) ∂ θ j = − 1 m ∑ i = 1 m ( y ( i ) − h θ ( x ( i ) ) ) x j ( i ) \frac{\partial J(\theta)}{\partial \theta_j}=-\frac{1}{m}\sum \limits_{i=1}^m(y^{(i)}-h_{\theta}(x^{(i)}))x^{(i)}_j θjJ(θ)=m1i=1m(y(i)hθ(x(i)))xj(i)
  • 将负梯度代入参数更新公式得: θ j ′ = θ j + α 1 m ∑ i = 1 m ( y ( i ) − h θ ( x ( i ) ) ) x j ( i ) \theta_j'=\theta_j+\alpha\frac{1}{m}\sum \limits_{i=1}^m(y^{(i)}-h_{\theta}(x^{(i)}))x^{(i)}_j θj=θj+αm1i=1m(y(i)hθ(x(i)))xj(i)

(3) 伪代码:

repeat{
   θ j ′ = θ j + α 1 m ∑ i = 1 m ( y ( i ) − h θ ( x ( i ) ) ) x j ( i ) \theta_j'=\theta_j+\alpha\frac{1}{m}\sum \limits_{i=1}^m(y^{(i)}-h_{\theta}(x^{(i)}))x^{(i)}_j θj=θj+αm1i=1m(y(i)hθ(x(i)))xj(i)
}

(4) 优缺点:

  • 优点:能得到全局最优解;易于并行实现
  • 缺点:当样本数目很多时,训练过程会很慢。

1.3.2 随机梯度下降法SGD(Stochastic Gradient Descent)

(1) 基本思想:

  • 每次迭代时,利用一个样本计算梯度来对参数进行更新

(2) 数学形式:

  • 改写损失函数: J ( θ ) = 1 2 m ∑ i = 1 m ( y ( i ) − h θ ( x ( i ) ) ) 2 = 1 m ∑ i = 1 m c o s t ( θ , ( x ( i ) , y ( i ) ) ) J(\theta)=\frac{1}{2m}\sum \limits_{i=1}^m(y^{(i)}-h_{\theta}(x^{(i)}))^2=\frac{1}{m}\sum \limits_{i=1}^m cost(\theta,(x^{(i)},y^{(i)})) J(θ)=2m1i=1m(y(i)hθ(x(i)))2=m1i=1mcost(θ,(x(i),y(i)))
  • 单个样本的损失函数: c o s t ( θ ) ) = 1 2 ( y ( i ) − h θ ( x ( i ) ) ) 2 cost(\theta))=\frac{1}{2}(y^{(i)}-h_{\theta}(x^{(i)}))^2 cost(θ))=21(y(i)hθ(x(i)))2
  • 将损失函数对参数求偏导得: ∂ c o s t ( θ ) ) ∂ θ j = − ( y ( i ) − h θ ( x ( i ) ) ) x j ( i ) \frac{\partial cost(\theta))}{\partial \theta_j}=-(y^{(i)}-h_{\theta}(x^{(i)}))x^{(i)}_j θjcost(θ))=(y(i)hθ(x(i)))xj(i)
  • 将负梯度代入参数更新公式得: θ j ′ = θ j + α ( y ( i ) − h θ ( x ( i ) ) ) x j ( i ) \theta_j'=\theta_j+\alpha(y^{(i)}-h_{\theta}(x^{(i)}))x^{(i)}_j θj=θj+α(y(i)hθ(x(i)))xj(i)

(3) 伪代码:

  1. Randomly shuffle dataset;
  2. repeat{
      for i=1,…,m{
         θ j ′ = θ j + α ( y ( i ) − h θ ( x ( i ) ) ) x j ( i ) \theta_j'=\theta_j+\alpha(y^{(i)}-h_{\theta}(x^{(i)}))x^{(i)}_j θj=θj+α(y(i)hθ(x(i)))xj(i)
      }
    }

(4) 优缺点:

  • 优点:训练速度快;
  • 缺点:准确度下降,并不是全局最优;不易于并行实现。

1.3.3 小批量梯度下降法MBGD(Mini-batch Gradient Descent)

(1) 基本思想:

  • 每次迭代时,利用b个( 1 ≤ b ≤ m 1\le b\le m 1bm, 一般取10)样本计算梯度来对参数进行更新

(2) 伪代码:

  1. Set b=10, m=1000;
  2. repeat{
      for i=1, 11, 21, …,991{
         θ j ′ = θ j + α 1 10 ∑ k = i i + 9 ( y ( k ) − h θ ( x ( k ) ) ) x j ( k ) \theta_j'=\theta_j+\alpha\frac{1}{10}\sum \limits_{k=i}^{i+9}(y^{(k)}-h_{\theta}(x^{(k)}))x^{(k)}_j θj=θj+α101k=ii+9(y(k)hθ(x(k)))xj(k)
      }
    }

(3) 优缺点:

  • 优点:算法的训练过程比较快,同时也保证了准确率
  • 缺点:每次梯度的方向不确定,可能需要很长时间才能达到最优解

1.3.4 BGD、SGD、MBGD的区别

  • 当样本量为m的时候,每次迭代BGD算法中对于参数值更新一次,SGD算法中对于参数值更新m次,MBGD算法中对于参数值更新m/n次,相对来讲SGD算法的更新速度最快;
  • SGD算法中对于每个样本都需要更新参数值,当样本值不太正常的时候,就有可能会导致本次的参数更新会产生相反的影响,也就是说SGD算法的结果并不是完全收敛的,而是在收敛结果处波动的;
  • SGD算法是每个样本都更新一次参数值,所以SGD算法特别适合样本数据量大的情况以及在线机器学习(Online ML)。

2. 逻辑回归

2.1 什么是逻辑回归?

逻辑回归(Logistic Regression)是用于处理因变量为分类变量的回归问题,常见的是二分类或二项分布问题,也可以处理多分类问题,它实际上是属于一种分类方法。

2.1.1 逻辑回归模型

逻辑回归模型是如下的条件概率分布:
P ( y = 1 ∣ x ; θ ) = h θ ( x ) P ( y = 0 ∣ x ; θ ) = 1 − h θ ( x ) P(y=1|x;\theta)=h_{\theta}(x)\\ \quad P(y=0|x;\theta)=1-h_{\theta}(x) P(y=1x;θ)=hθ(x)P(y=0x;θ)=1hθ(x)
可合并写成:
p ( y ∣ x ; θ ) = ( h θ ( x ) ) y ( 1 − h θ ( x ) ) 1 − y p(y|x;\theta)=(h_{\theta}(x))^y(1-h_{\theta}(x))^{1-y} p(yx;θ)=(hθ(x))y(1hθ(x))1y
其中:

  • h θ ( x ) = g ( θ T x ) = 1 1 + e − θ T x h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}} hθ(x)=g(θTx)=1+eθTx1
  • g ( z ) = 1 1 + e − z g(z)=\frac{1}{1+e^{-z}} g(z)=1+ez1

2.1.2 逻辑回归模型的参数求解步骤

  1. 构造似然函数
    在这里插入图片描述

  2. 构造对数似然函数
    在这里插入图片描述
    此时模型参数的求解问题,转化为了以对数似然函数为目标函数的最优化问题,即求解 l ( θ ) l(\theta) l(θ)的最大值,接下来可以使用最优化问题求解算法:梯度上升法或拟牛顿法,这里用梯度上升法

  3. 梯度上升法求解过程
    (1) 求解梯度
    在这里插入图片描述
    (2) 将梯度代入参数学习公式:
    θ j : = θ j + α ∑ i = 1 m ( y ( i ) − h θ ( x ( i ) ) ) x j ( i ) \theta_j:=\theta_j+\alpha \sum \limits_{i=1}^m (y^{(i)}-h_{\theta}(x^{(i)}))x^{(i)}_j θj:=θj+αi=1m(y(i)hθ(x(i)))xj(i)
    (3) 迭代更新参数
    Repeat until convergence{
       θ j : = θ j + α ∑ i = 1 m ( y ( i ) − h θ ( x ( i ) ) ) x j ( i ) \theta_j:=\theta_j+\alpha \sum \limits_{i=1}^m (y^{(i)}-h_{\theta}(x^{(i)}))x^{(i)}_j θj:=θj+αi=1m(y(i)hθ(x(i)))xj(i)
    }

2.2 逻辑回归与线性回归的区别

相同点:
  两者都是广义线性模型GLM(Generalized linear models)

不同点:

  1. 线性回归做拟合的,逻辑回归做分类的
  2. 线性回归要求因变量(假设为Y)是连续数值变量,而logistic回归要求因变量是离散的类型变量,例如最常见的二分类问题,1代表正样本,0代表负样本
  3. 线性回归要求自变量服从正态分布,logistic回归对变量的分布则没有要求
  4. 线性回归要求自变量与因变量有线性关系,Logistic回归没有要求
  5. 线性回归是直接分析因变量与自变量的关系,logistic回归是分析因变量取某个值的概率与自变量的关系

3. 贝叶斯算法

3.1 朴素贝叶斯分类器

3.1.1 朴素贝叶斯算法是什么?

X = [ x 1 , x 2 … . x m ] X=[{x_1,x_2….x_m}] X=[x1,x2.xm]为一个待分类的样本, a i a_i ai x i x_i xi对应的属性值,类别集合 C = [ y 1 , y 2 … . . y n ] C=[{y_1,y_2…..y_n}] C=[y1,y2..yn]
贝叶斯分类器的目的就是寻找一种映射 y = f ( x ) y=f(x) y=f(x),使得样本集中每一个 X X X在C中都有一个对应的 y j y_j yj与之对应,也就是求在 x x x出现的条件下类别为 y j y_j yj的概率,即 P ( y j ∣ x ) P(y_j|x) P(yjx)

3.1.2 朴素贝叶斯分类器模型

在这里插入图片描述在这里插入图片描述

3.1.3 朴素贝叶斯算法例题

3.1.3.1 医疗诊断问题

有两个可选的假设:病人有癌症、病人无癌症
可用数据来自化验结果:正+和负-
有先验知识:在所有人口中,患病率是0.008
对确实有病的患者的化验准确率为98%,对确实无病的患者的化验准确率为97%
问题:假定有一个新病人,化验结果为正,是否应将该病人断定为有癌症?

根据题目有:
P(cancer)=0.008, P(!cancer)=0.992
P(+|cancer)=0.98, P(-|cancer)=0.02
P(+|!cancer)=0.03, P(-|!cancer)=0.97

由朴素贝叶斯算法模型 y ^ = arg max ⁡ y P ( y ) ∏ i = 1 m P ( x i ∣ y ) \hat y=\argmax \limits _yP(y)\prod \limits_{i=1}^mP(x_i|y) y^=yargmaxP(y)i=1mP(xiy)知,已知 x i x_i xi为+,要求此时后验概率最大时的类别y。
P(cancer|+) ∝ \propto P(cancer)P(+|cancer)=0.008x0.98=0.00784
P(!cancer|+) ∝ \propto P(!cancer)P(+|!cancer)=0.992x0.03=0.02976
P(!cancer|+) > P(cancer|+)
故不应该将该病人定为有癌症

3.1.3.2 根据天气判断是否打网球

假设给定了如下训练样本数据,学习的目标是根据给定的天气状况判断你对PlayTennis这个请求的回答是Yes还是No。
在这里插入图片描述
给定天气情况X={sunny, cool, high, strong},计算后验概率P(Yes|x)和P(No|x)
在这里插入图片描述
在这里插入图片描述
P(X|Y=NO)P(Y=NO) > P(X|Y=Yes)P(Y=Yes),故该样本的分类为NO,即不能出去打网球

3.2 贝叶斯网络

3.2.1 什么是贝叶斯网络?

贝叶斯网络,又称有向无环图模型,是一种概率图模型,根据概率图的拓扑结构,考察一组随机变量{X1,X2,…,Xn}及其N组条件概率分布的性质。

3.2.2 贝叶斯网络的相关概念

  • 贝叶斯网络的有向无环图中的节点表示随机变量,可以是可观察到的变量,或隐变量,未知参数等等。
  • 连接两个节点之间的箭头代表两个随机变量之间的因果关系(也就是这两个随机变量之间非条件独立),如果两个节点间以一个单箭头连接在一起,表示其中一个节点是“因”,另外一个是“果”,从而两节点之间就会产生一个条件概率值。
  • 每个节点在给定其直接前驱的时候,条件独立于其后继。

3.2.3 贝叶斯网络举例

(1) 最简单的一个贝叶斯网络
                   在这里插入图片描述
                    P ( a , b , c ) = P ( c ∣ a , b ) P ( b ∣ a ) P ( a ) P(a,b,c) = P(c|a,b)P(b|a)P(a) P(a,b,c)=P(ca,b)P(ba)P(a)
(2) 全连接贝叶斯网络
              在这里插入图片描述

  • 特点:每一对节点之间都有边连接
    在这里插入图片描述

(3)一个“正常”的贝叶斯网络

              在这里插入图片描述

  • 有些边缺失
  • x1和x2独立
  • x6和x7在x4给定的条件下独立

x1,x2,…x7的联合分布:
在这里插入图片描述

3.2.4 实际贝叶斯网络例题

在这里插入图片描述
在这里插入图片描述

3.2.5 条件独立性

3.2.5.1 贝叶斯网络判定条件独立-01

在这里插入图片描述

3.2.5.2 贝叶斯网络判定条件独立-02

在这里插入图片描述

3.2.5.3 贝叶斯网络判定条件独立-03

在这里插入图片描述

3.2.6 有向分离

对于较为复杂的 DAG 图,我们可以给出一个普遍意义上的结论 ,也就是 D-Seperation 有向分离。 对于 DAG 图 E,如果A,B,C是三个集合(可以是单独的节点或者是节点的集合),为了判断 A 和 B 是否是 C 条件独立的, 我们考虑 E 中所有 A 和 B 之间的无向路径 。对于其中的一条路径,如果她满足以下两个条件中的任意一条,则称这条路径是阻塞(block) 的:

(a)路径中存在某个节点 X 是 head-to-tail 或者 tail-to-tail 节点(Example one/two),并且 X 是包含在 C 中的;

(b)路径中存在某个节点 X 是 head-to-head 节点(Example Three),并且 X 或 X 的儿子是不包含在 C 中的;

如果 A,B 间所有的路径都是阻塞的,那么 A,B 就是关于 C 条件独立的;否则, A,B 不是关于 C 条件独立的。

3.2.6.1 有向分离例题1

在这里插入图片描述
判断图中a与b是否在c条件下独立?a与b是否在f条件下独立?

判断 a 和 b 是否是 c下条件独立的: a 到 b 只有一条路径 a-e-f-b 。 考虑路径上的点 e 和 f :其中e 是 head-to-head 类型的,且 e 的儿子节点就是 c ,根据(b),e不阻断。而节点f是tail-to-tail类型节点,根据(a),f不在c中,所以也有a,b不是c条件下独立。

判断 a 和 b 是否是 f 下条件独立的:路径 a-e-f-b 上的所有节点。考虑路径上的点e和f:节点 e 是head-to-head 类型的,e 和她的儿子节点 c 都不在 f 中,所以(b),e是阻断路径的节点。节点 f 是tail-to-tail类型节点,且 f 节点就在 f中,所以 f 节点阻断了路径。 结论:a 和 b是 f 下条件独立的。

3.2.6.2 有向分离例题2

在这里插入图片描述
Gas和Radio是独立的吗?
给定Battery呢?Ignition呢?Starts呢?Moves呢?

(1) 给定Battery,即条件C={Battery}
Gas和Radio之间只有一条路径:Radio-Battery-Ignition-Starts-Gas
考虑路径上的点Battery、Ignition、Starts:

Battery是tail-to-tail类型,且Battery在C中,因此Battery阻断
Ignition是head-to-tail类型,Ignition不在C中,因此Ignition不阻断
Starts是head-to-head类型,Starts和它的儿子结点Moves都不在C中,因此Starts阻断
因此Gas和Radio不是Battery下条件独立的

同理可得,当分别给定条件C={Ignition},C={Starts},C={Moves}时,Gas和Radio都不是C下条件独立的

(2)给定Battery和Ignition,即条件C={Battery, Ignition}
Battery是tail-to-tail类型,Battery在C中,因此Battery阻断
Ignition是head-to-tail类型,Ignition在C中,因此Ignition阻断
Starts是head-to-head类型,Starts和它的儿子结点Moves都不在C中,因此Starts阻断
Gas到Radio间所有路径都阻断,故Gas和Radio是关于{Battery, Ignition}条件独立的。

3.2.7 条件独立性分析

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. EM 算法

4.1 EM算法是什么?

EM算法(Expectation Maximization Algorithm, 最大期望算法)是一种迭代类型的算法,是一种在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量

4.2.EM算法的相关概念

4.2.1 观测变量隐藏变量

  • 观测变量:能够直接观测到数据的随机变量,其对应的数据称为观测数据。
  • 隐藏变量:又称隐含变量、隐变量,隐藏变量是不可观测的随机变量。

举例说明:
假设拿到了10000个志愿者的身高数据,现在要估算男性的分布N(μ1,σ1)和女性的分布N(μ2,σ2)。
这里的性别数据未观测到,但我们仍然需要对不同的性别做估计。
这里的性别特征就是隐变量,相对应的,身高数据可以看做“部分观测数据”或“带隐变量的观测数据”。

4.2.2 E和M分别代表什么?

E和M为EM算法中的两个关键步骤,E表示期望,M表示最大化

  • E步:利用当前估计的参数值来计算对数似然的期望值
  • M步:寻找能使 EM 算法的E 步产生的似然期望最大化的参数值

4.3 EM算法的推导

在这里插入图片描述
l ( θ ) = ∑ i = 1 m l o g ( P ( x ( i ) ; θ ) ) θ = arg max ⁡ θ l ( θ ) = arg max ⁡ θ ∑ i = 1 m l o g ( P ( x ( i ) ; θ ) ) l(\theta)=\sum \limits_{i=1}^mlog(P(x^{(i)};\theta))\\\theta=\argmax \limits_{\theta}l(\theta)=\argmax \limits_{\theta}\sum \limits_{i=1}^mlog(P(x^{(i)};\theta)) l(θ)=i=1mlog(P(x(i);θ))θ=θargmaxl(θ)=θargmaxi=1mlog(P(x(i);θ))
在这里插入图片描述
因为z是隐变量,所以直接求解上式来找到参数的估计是很困难的。因此,转换策略,建立L的下界,求该下界的最大值;重复这个过程,直到收敛到局部最大值。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.4 EM算法的流程

4.4.1 详细流程

在这里插入图片描述

4.4.2 伪代码

在这里插入图片描述

4.5 EM算法的收敛性证明

想要保证EM是收敛的,就要证明极大似然估计单调增加。在这里插入图片描述
证明:
在这里插入图片描述
在这里插入图片描述

4.6 用EM算法求解高斯混合模型参数

4.6.1 高斯混合模型

GMM(Gaussian Mixture Model, 高斯混合模型)是指该算法有多个高斯模型线性叠加混合而成。每个高斯模型称之为component。GMM算法描述的是数据的本身存在的一种分布。

  • GMM算法常用于聚类应用中,component的个数就可以认为是类别的数量。
  • 假定GMM由k个Gaussian分布线性叠加而成,那么概率密度函数和对数似然函数分别如下:

p ( x ) = ∑ k = 1 K P ( k ) P ( x ∣ k ) = ∑ k = 1 K ϕ k P ( x ; μ k , Σ k ) p(x)=\sum \limits_{k=1}^KP(k)P(x|k)=\sum_{k=1}^K\phi_kP(x;\mu_k,\Sigma_k) p(x)=k=1KP(k)P(xk)=k=1KϕkP(x;μk,Σk)
l ( x ) = ∑ i = 1 N l o g ( ∑ k = 1 K ϕ k P ( x i ; μ k , Σ k ) ) l(x)=\sum \limits_{i=1}^Nlog(\sum_{k=1}^K\phi_kP(x_i;\mu_k,\Sigma_k)) l(x)=i=1Nlog(k=1KϕkP(xi;μk,Σk))

4.6.2 求解高斯混合模型参数

随机变量X是有k个高斯分布混合而成,取各个高斯分布的概率为 ϕ 1 , ϕ 2 . . . ϕ k \phi_1,\phi_2...\phi_k ϕ1ϕ2...ϕk,第i个高斯分布的均值为 μ i \mu_i μi,方差为 Σ i \Sigma_i Σi。若观测到随机变量 X X X的一系列样本 x 1 , x 2 . . . , x m x_1,x_2...,x_m x1,x2...,xm,试估计参数 ϕ , μ , Σ \phi, \mu, \Sigma ϕ,μ,Σ
求解高斯分布的参数:

E-step:
w j ( i ) = Q i ( z ( i ) = j ) = P ( z ( i ) = j ∣ x ( i ) ; ϕ , μ , Σ ) w_j^{(i)}=Q_i(z^{(i)}=j)=P(z^{(i)}=j|x^{(i)};\phi,\mu,\Sigma) wj(i)=Qi(z(i)=j)=P(z(i)=jx(i);ϕ,μ,Σ)

M-step:
将多项分布和高斯分布的参数带入:

L ( ϕ , μ , Σ ) = ∑ i = 1 m ∑ z ( i ) Q i ( z ( i ) ) log ⁡ P ( x ( i ) , z ( i ) ; ϕ , μ , Σ ) Q i ( z ( i ) ) = ∑ i = 1 m ∑ j = 1 k Q i ( z ( i ) = j ) log ⁡ P ( x ( i ) ∣ z ( i ) = j ; μ , Σ ) P ( z ( i ) = j ; ϕ ) Q i ( z ( i ) = j ) = ∑ i = 1 m ∑ j = 1 k w j ( i ) log ⁡ 1 2 π Σ j e − ( x ( i ) − μ j ) 2 2 Σ j ⋅ ϕ j w j ( i ) L(\phi,\mu,\Sigma)=\sum \limits_{i=1}^m\sum \limits_{z^{(i)}}Q_i(z^{(i)})\log\frac{P(x^{(i)},z^{(i)};\phi,\mu,\Sigma)}{Q_i(z^{(i)})}\\ \qquad \quad \quad = \sum \limits_{i=1}^m\sum \limits_{j=1}^kQ_i(z^{(i)}=j)\log\frac{P(x^{(i)}|z^{(i)}=j;\mu,\Sigma)P(z^{(i)}=j;\phi)}{Q_i(z^{(i)}=j)} \\ \qquad \quad \quad = \sum \limits_{i=1}^m\sum \limits_{j=1}^kw_j^{(i)}\log \frac{\frac{1}{\sqrt{2\pi\Sigma_j}}e^{-\frac{(x^{(i)}-\mu_j)^2}{2\Sigma_j}}\cdot\phi_j}{w_j^{(i)}} L(ϕ,μ,Σ)=i=1mz(i)Qi(z(i))logQi(z(i))P(x(i),z(i);ϕ,μ,Σ)=i=1mj=1kQi(z(i)=j)logQi(z(i)=j)P(x(i)z(i)=j;μ,Σ)P(z(i)=j;ϕ)=i=1mj=1kwj(i)logwj(i)2πΣj 1e2Σj(x(i)μj)2ϕj

对均值 μ j \mu_j μj求偏导:

先删去 L ( ϕ , μ , Σ ) L(\phi,\mu,\Sigma) L(ϕ,μ,Σ)中与 μ j \mu_j μj求偏导无关的项,得:
− ∑ i = 1 m ∑ j = 1 k w j ( i ) ( x ( i ) − μ j ) 2 2 Σ j -\sum \limits_{i=1}^m\sum \limits_{j=1}^kw_j^{(i)}\frac{(x^{(i)}-\mu_j)^2}{2\Sigma_j} i=1mj=1kwj(i)2Σj(x(i)μj)2

则对 L ( ϕ , μ , Σ ) L(\phi,\mu,\Sigma) L(ϕ,μ,Σ)关于 μ j \mu_j μj求偏导,有:
∇ μ l L ( ϕ , μ , Σ ) = − ∇ μ l ∑ i = 1 m ∑ j = 1 k w j ( i ) ( x ( i ) − μ j ) 2 2 Σ j = − 1 Σ j ∑ i = 1 m w j ( i ) ( x ( i ) − μ j ) \nabla_{\mu_l}L(\phi,\mu,\Sigma)=-\nabla_{\mu_l}\sum \limits_{i=1}^m\sum \limits_{j=1}^kw_j^{(i)}\frac{(x^{(i)}-\mu_j)^2}{2\Sigma_j}\\ \quad \quad\quad\quad \quad \quad = -\frac{1}{\Sigma_j}\sum \limits_{i=1}^mw_j^{(i)}(x^{(i)}-\mu_j) μlL(ϕ,μ,Σ)=μli=1mj=1kwj(i)2Σj(x(i)μj)2=Σj1i=1mwj(i)(x(i)μj)

令上式分子等于0,即
∑ i = 1 m w j ( i ) ( x ( i ) − μ j ) = ∑ i = 1 m w j ( i ) x ( i ) − μ j ∑ i = 1 m w j ( i ) = 0 \sum \limits_{i=1}^mw_j^{(i)}(x^{(i)}-\mu_j)=\sum \limits_{i=1}^mw_j^{(i)}x^{(i)}-\mu_j\sum \limits_{i=1}^mw_j^{(i)}=0 i=1mwj(i)(x(i)μj)=i=1mwj(i)x(i)μji=1mwj(i)=0

得:
μ j = ∑ i = 1 m w j ( i ) x ( i ) ∑ i = 1 m w j ( i ) \mu_j=\frac{\sum \limits_{i=1}^mw_j^{(i)}x^{(i)}}{\sum \limits_{i=1}^mw_j^{(i)}} μj=i=1mwj(i)i=1mwj(i)x(i)

对方差 Σ j \Sigma_j Σj求偏导:
先删去 L ( ϕ , μ , Σ ) L(\phi,\mu,\Sigma) L(ϕ,μ,Σ)中与 Σ j \Sigma_j Σj求偏导无关的项,得:
∑ i = 1 m ∑ j = 1 k w j ( i ) log ⁡ 1 2 π Σ j e − ( x ( i ) − μ j ) 2 2 Σ j = ∑ i = 1 m ∑ j = 1 k w j ( i ) ( log ⁡ 1 2 π Σ j − ( x ( i ) − μ j ) 2 2 Σ j ) \sum \limits_{i=1}^m\sum \limits_{j=1}^kw_j^{(i)}\log\frac{1}{\sqrt{2\pi\Sigma_j}}e^{-\frac{(x^{(i)}-\mu_j)^2}{2\Sigma_j}}\\ = \sum \limits_{i=1}^m\sum \limits_{j=1}^kw_j^{(i)}(\log\frac{1}{\sqrt{2\pi\Sigma_j}} - \frac{(x^{(i)}-\mu_j)^2}{2\Sigma_j}) i=1mj=1kwj(i)log2πΣj 1e2Σj(x(i)μj)2=i=1mj=1kwj(i)(log2πΣj 12Σj(x(i)μj)2)

L ( ϕ , μ , Σ ) L(\phi,\mu,\Sigma) L(ϕ,μ,Σ)关于 Σ j \Sigma_j Σj求偏导,有:
∇ Σ j L ( ϕ , μ , Σ ) = − ∇ Σ j ∑ i = 1 m ∑ j = 1 k w j ( i ) ( log ⁡ 1 2 π Σ j − ( x ( i ) − μ j ) 2 2 Σ j ) = ∑ i = 1 m w j ( i ) ( − 1 2 Σ j + ( x ( i ) − μ j ) 2 2 Σ j 2 ) = ∑ i = 1 m w j ( i ) ( − Σ j + ( x ( i ) − μ j ) 2 2 Σ j 2 ) \nabla_{\Sigma_j}L(\phi,\mu,\Sigma)=-\nabla_{\Sigma_j}\sum \limits_{i=1}^m\sum \limits_{j=1}^kw_j^{(i)}(\log\frac{1}{\sqrt{2\pi\Sigma_j}} - \frac{(x^{(i)}-\mu_j)^2}{2\Sigma_j}) \\ \quad \quad \quad \quad\quad\quad = \sum \limits_{i=1}^mw_j^{(i)}(-\frac{1}{2\Sigma_j}+\frac{(x^{(i)}-\mu_j)^2}{2\Sigma_j^2}) \\ \quad \quad \quad \quad\quad\quad = \sum \limits_{i=1}^mw_j^{(i)}(\frac{-\Sigma_j+(x^{(i)}-\mu_j)^2}{2\Sigma_j^2}) ΣjL(ϕ,μ,Σ)=Σji=1mj=1kwj(i)(log2πΣj 12Σj(x(i)μj)2)=i=1mwj(i)(2Σj1+2Σj2(x(i)μj)2)=i=1mwj(i)(2Σj2Σj+(x(i)μj)2)

令上式分子为0,则有:
− Σ j ∑ i = 1 m w j ( i ) + ∑ i = 1 m w j ( i ) ( x ( i ) − μ j ) 2 = 0 -\Sigma_j\sum \limits_{i=1}^mw_j^{(i)}+\sum \limits_{i=1}^mw_j^{(i)}(x^{(i)}-\mu_j)^2=0 Σji=1mwj(i)+i=1mwj(i)(x(i)μj)2=0
得:
Σ j = ∑ i = 1 m w j ( i ) ( x ( i ) − μ j ) 2 ∑ i = 1 m w j ( i ) \Sigma_j=\frac{\sum \limits_{i=1}^mw_j^{(i)}(x^{(i)}-\mu_j)^2}{\sum \limits_{i=1}^mw_j^{(i)}} Σj=i=1mwj(i)i=1mwj(i)(x(i)μj)2

求解多项分布的参数:

先删去 L ( ϕ , μ , Σ ) L(\phi,\mu,\Sigma) L(ϕ,μ,Σ)中与 ϕ j \phi_j ϕj求偏导无关的项,得:
∑ i = 1 m ∑ j = 1 k w j ( i ) log ⁡ ϕ j \sum \limits_{i=1}^m\sum \limits_{j=1}^kw_j^{(i)}\log\phi_j i=1mj=1kwj(i)logϕj

无法直接通过对上式关于 ϕ j \phi_j ϕj求偏导解出 ϕ j \phi_j ϕj,因此,转而用拉格朗日乘数法求解

由于多项分布的概率和为1,建立拉格朗日方程
F ( ϕ , β ) = ∑ i = 1 m ∑ j = 1 k w j ( i ) log ⁡ ϕ j + β ( ∑ j = 1 k ϕ j − 1 ) F(\phi,\beta)=\sum \limits_{i=1}^m\sum \limits_{j=1}^kw_j^{(i)}\log\phi_j+\beta(\sum\limits_{j=1}^k\phi_j-1) F(ϕ,β)=i=1mj=1kwj(i)logϕj+β(j=1kϕj1)

注: 这样求解的 ϕ i \phi_i ϕi 一定非负,所以,不用考虑 ϕ i ≥ 0 \phi_i \ge0 ϕi0 这个条件

F ( ϕ , β ) F(\phi,\beta) F(ϕ,β) ϕ j \phi_j ϕj求偏导,令导数为0,得:
∂ F ( ϕ , β ) ∂ ϕ j = ∑ i = 1 m w j ( i ) ϕ j + β = 0 \frac{\partial F(\phi,\beta)}{\partial \phi_j}=\sum \limits_{i=1}^m\frac{w_j^{(i)}}{\phi_j}+\beta=0 ϕjF(ϕ,β)=i=1mϕjwj(i)+β=0

β = − 1 ϕ j ∑ i = 1 m w j ( i ) ϕ j = − 1 β ∑ i = 1 m w j ( i ) \beta = -\frac{1}{\phi_j}\sum \limits_{i=1}^mw_j^{(i)} \\ \phi_j = -\frac{1}{\beta}\sum \limits_{i=1}^mw_j^{(i)} β=ϕj1i=1mwj(i)ϕj=β1i=1mwj(i)
两边对 j j j求和,则有
∑ j = 1 k ϕ j = − 1 β ∑ i = 1 m ∑ j = 1 k w j ( i ) 1 = − m β \sum \limits_{j=1}^k \phi_j = -\frac{1}{\beta}\sum \limits_{i=1}^m\sum \limits_{j=1}^kw_j^{(i)} \\ \quad \quad1=-\frac{m}{\beta} j=1kϕj=β1i=1mj=1kwj(i)1=βm

所以 β = − m \beta=-m β=m,故
ϕ j = 1 m ∑ i = 1 m w j ( i ) \phi_j = \frac{1}{m}\sum \limits_{i=1}^mw_j^{(i)} ϕj=m1i=1mwj(i)

5. 决策树

5.1 相关概念

自信息:衡量单个输出单个事件的不确定性

  • I ( x ) = − l o g P ( x ) I(x)=-logP(x) I(x)=logP(x)

信息熵:描述信息的不确定程度,熵越大,不确定性越大,数学描述为自信息的期望

  • H ( P ) = − ∑ i = 1 N P ( x i ) l o g P ( x i ) H(P)=-\sum \limits _{i=1}^NP(x_i)logP(x_i) H(P)=i=1NP(xi)logP(xi)

交叉熵:衡量两个分布之间的相似度(P,Q为两个概率分布)

  • H ( P , Q ) = − ∑ i = 1 N P ( x i ) l o g Q ( x i ) H(P, Q) = -\sum \limits _{i=1}^NP(x_i)logQ(x_i) H(P,Q)=i=1NP(xi)logQ(xi)

相对熵:又称为KL散度,用来衡量两个分布之间的差异(距离)

  • D ( P ∣ ∣ Q ) = ∑ x P ( x ) l o g P ( x ) Q ( x ) D(P||Q)=\sum \limits_xP(x)log\frac{P(x)}{Q(x)} D(PQ)=xP(x)logQ(x)P(x)

交叉熵 = 信息熵 + 相对熵

  • D ( P ∣ ∣ Q ) = ∑ i = 1 N P ( x i ) l o g P ( x i ) Q ( x i ) = ∑ i = 1 N P ( x i ) [ l o g P ( x i ) − l o g Q ( x i ) ] = ∑ i = 1 N P ( x i ) l o g P ( x i ) − ∑ i = 1 N P ( x i ) l o g Q ( x i ) = H ( P , Q ) − H ( P ) D(P||Q)= \sum \limits _{i=1}^NP(x_i)log\frac{P(x_i)}{Q(x_i)} \\ \qquad\qquad\quad =\sum \limits _{i=1}^NP(x_i)[logP(x_i)-logQ(x_i)] \\ \qquad\qquad\quad=\sum \limits _{i=1}^NP(x_i)logP(x_i)-\sum \limits _{i=1}^NP(x_i)logQ(x_i) \\ \qquad\qquad\quad=H(P,Q)-H(P) D(PQ)=i=1NP(xi)logQ(xi)P(xi)=i=1NP(xi)[logP(xi)logQ(xi)]=i=1NP(xi)logP(xi)i=1NP(xi)logQ(xi)=H(P,Q)H(P)

互信息:两个随机变量X,Y的互信息,定义为X,Y的联合分布p(x,y)和边缘分布乘积p(x)p(y)的相对熵

  • I ( X , Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) I(X,Y)=\sum \limits _{x\in X} \sum \limits _{y\in Y}p(x,y)log\frac{p(x,y)}{p(x)p(y)} I(X,Y)=xXyYp(x,y)logp(x)p(y)p(x,y)

联合熵:两个变量X和Y的联合信息熵定义为:

  • H ( X , Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x , y ) H(X,Y)=\sum \limits _{x\in X} \sum \limits _{y\in Y}p(x,y)\log p(x,y) H(X,Y)=xXyYp(x,y)logp(x,y)

条件熵:条件熵 H(X|Y) 表示在已知随机变量Y的条件下,随机变量 X 的不确定性

条件熵定义式1:在给定条件 Y下,X 的条件概率分布的熵对 Y 的数学期望:

在这里插入图片描述
条件熵定义式2:(X,Y)发生所包含的信息熵,减去Y单独发生包含的信息熵

  • H(X|Y) = H(X,Y) – H(Y)
    在这里插入图片描述

条件熵定义式3:X单独发生所包含的信息熵减去X和Y的互信息
在这里插入图片描述
条件熵相关等式总结:

  • H(Y|X)= H(X,Y) - H(X)
  • H(Y|X)= H(Y) - I(X,Y)
  • H(X,Y)= H(X) + H(Y) - I(X,Y)
    在这里插入图片描述

5.2 交叉熵损失函数和均方误差对比

5.3 为什么分类问题用交叉熵损失而不用均方误差?

  • 交叉熵损失函数只和分类正确的预测结果有关系,误差越大参数的梯度也越大,能快速收敛
  • 均方误差损失函数还和错误的分类有关系,该分类函数除了让正确的分类尽量大,还会让错误的分类变平均。

6. 支持向量机

6.1 相关概念

6.1.1 支持向量机的输入是什么样?

假设给定一个特征空间上的训练数据集

           T={ ( x 1 , y 1 ) , ( x 2 , y 2 ) … ( x N , y N ) (x_1,y_1), (x_2,y_2)…(x_N,y_N) (x1,y1),(x2,y2)(xN,yN)}

其中

  • x i ∈ R n , y i ∈ + 1 , − 1 , i = 1 , 2 , … N x_i∈R^n,y_i ∈{+1,-1},i=1,2,…N xiRnyi+1,1i=1,2,N
  • x i x_i xi为第i个特征向量,也称为实例
  • y i y_i yi x i x_i xi的类标记
  • y i y_i yi=+1时,称 x i x_i xi为正例;当 y i y_i yi=-1时,称 x i x_i xi为负例
  • ( x i , y i ) (x_i,y_i) (xi,yi)称为样本点

6.1.2 分离超平面

在这里插入图片描述

6.1.3 支持向量机做什么的?

支持向量机的目标,是通过在数据集上进行训练,学习得到一个分离超平面,从而能够将不同的实例分到不同的类中。

分离超平面对应于方程 w ⋅ x + b = 0 w \cdot x +b=0 wx+b=0,它由法向量w和截距b决定,因此,支持向量机的目的就是为了学习得到参数w和b,从而得到最终的分离超平面。

6.1.4 支持向量机有哪些?

  • 线性可分支持向量机:硬间隔支持向量机
    在这里插入图片描述
  • 线性支持向量机:软间隔支持向量机
    在这里插入图片描述
  • 非线性支持向量机:使用核函数的软间隔支持向量机
    在这里插入图片描述

6.1.5 什么是支持向量?

线性可分的情况:
支持向量(硬间隔支持向量):在线性可分的情况下,训练数据集的样本点中与分类超平面距离最近的样本点的实例,也就是使得线性可分支持向量机学习问题中的不等式条件的等号成立的点,即 y i ( w ⋅ x i + b ) − 1 = 0 y_i(w\cdot x_i+b)-1=0 yi(wxi+b)1=0的点。
                     在这里插入图片描述
在这里插入图片描述

线性不可分的情况:
支持向量(软间隔支持向量):在线性不可分的情况下,线性支持向量机的学习问题的对偶问题的解 α ∗ = ( α 1 ∗ , α 2 ∗ , . . . , α N ∗ ) T \alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T α=(α1,α2,...,αN)T中对应于 α i ∗ > 0 \alpha_i^*>0 αi>0的样本点 ( x i , y i ) (x_i,y_i) (xi,yi)的实例 x i x_i xi称为支持向量。

在这里插入图片描述
            在这里插入图片描述
在这里插入图片描述

支持向量的特点

  • 在决定分离超平面时,只有支持向量起作用,而其他实例点并不起作用
  • 如果移动支持向量,会改变所求的解,移动非支持向量不会影响解
  • 支持向量的个数一般很少,所以支持向量机由很少的“重要的”训练样本确定

6.1.6 函数间隔和几何间隔

函数间隔: 使用 y ( w ⋅ x + b ) y(w\cdot x+b) y(wx+b)来表示分类的正确性和确信度。

  • 正确性: w ⋅ x + b w\cdot x+b wx+b与类标记 y y y 符号一致则表示分类正确,否则错误
  • 确信度:超平面 w ⋅ x + b = 0 w\cdot x+b=0 wx+b=0确定的情况下, ∣ w ⋅ x + b ∣ |w\cdot x+b| wx+b能够相对地表示点x距离超平面的远近,而一个点距离分离超平面的远近可以表示分类预测的确信程度。

在这里插入图片描述

在这里插入图片描述

几何间隔: 超平面 ( w , b ) (w,b) (w,b)关于样本点 ( x i , y i ) (x_i,y_i) (xi,yi)的几何间隔一般是实例点到超平面的带符号的距离,当样本点被超平面正确分类时,就是实例点到超平面的距离。

在这里插入图片描述
函数间隔与几何间隔的关系:
在这里插入图片描述

6.2 线性可分支持向量机

线性可分支持向量机:硬间隔支持向量机
在这里插入图片描述

6.2.1 线性可分支持向量机学习算法

在这里插入图片描述

6.2.2 最优化问题的构造

6.2.2.1 原始最优化问题的构造

支持向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。

求得一个集合间隔最大的分离超平面,该问题是一个带约束的最优化问题,其数学形式如下:
               在这里插入图片描述
其中:

  • 目标函数的含义:最大化超平面关于训练数据集的几何间隔γ
  • 约束条件的含义:超平面关于每个训练样本点的几何间隔至少为γ

因为 γ = γ ^ ∣ ∣ w ∣ ∣ \gamma=\frac{\hat \gamma}{||w||} γ=wγ^,所以将问题改写成如下形式:
               在这里插入图片描述
将w和b按比例地改为λw和λb,此时函数间隔变为λ γ ^ \hat \gamma γ^,而函数间隔的这一改变对上面最优化问题的不等式约束没有影响,所以,函数间隔 γ ^ \hat \gamma γ^的取值并不影响最优化问题的解。

因此,为方便运算,令 γ ^ \hat \gamma γ^=1,同时最大化 1 ∣ ∣ w ∣ ∣ \frac{1}{||w||} w1和最小化 1 2 ∣ ∣ w ∣ ∣ 2 \frac{1}{2}||w||^2 21w2等价,所以将改写上述问题,最终得到线性可分支持向量机学习的原始最优化问题:
在这里插入图片描述
最大间隔法:
线性可分支持向量机学习的原始最优化问题所对应的算法被称为最大间隔法
在这里插入图片描述

6.2.2.1 最优化问题的构造

在这里插入图片描述
在这里插入图片描述

6.2.3 最优化问题的求解

6.2.3.1 α \alpha α的求解

求解支持向量机学习的最优化问题中的拉格朗日乘子向量 α \alpha α,求解方法有很多,其中最著名的为序列最小最优化算法,即SMO算法。
在这里插入图片描述

6.2.3.2 w和b的求解

根据kkt条件,有:
在这里插入图片描述

6.2.4 线性可分支持向量机例题

在这里插入图片描述
解法1:使用最大间隔法求解
在这里插入图片描述
解法2:通过线性可分支持向量机学习算法求解
在这里插入图片描述

6.3 线性支持向量机

6.4 非线性支持向量机

7. 神经网络

https://www.zybuluo.com/hanbingtao/note/476663

7.1 神经网络的相关概念

7.2 神经网络的计算过程

7.3 反向传播算法的推导过程

7.4 神经网络的训练过程

https://www.baidu.com/link?url=rUssOGqojlBTSBMgFdoT9nTjBVt6DzTzoJTTm9hjTf0rRCuzOd0T917KXJTJVbC68WzfahWP_wPo7dMSQq4AJwPtq4Hyev_04S3_rT5o1NJF4YnqahKArrxQ91t_sLYHf060clvJU0GQMxggdYyTt_&wd=&eqid=cce2fc2000011f21000000065ee04f4b

7.5 计算图网络拓扑结构

7.5.1 计算图的定义

定义: 计算图是用来描述运算的有向无环图

计算图有两个主要元素:

  • 结点(Node):表示数据,如向量,矩阵,张量
  • 边(Edge):表示运算,如加减乘除卷积等

示例:
在这里插入图片描述
用计算图表示:y = (x + w)*(w + 1)

  • a = x + w
  • b = w + 1
  • y = a * b

7.5.2 计算图与梯度求导

y=(x + w)*(w + 1)

  • a = x + w
  • b = w + 1
  • y = a * b

在这里插入图片描述
∂ y ∂ w = ∂ y ∂ a ∂ a ∂ w + ∂ y ∂ b ∂ b ∂ w = b × 1 + a × 1 = b + a = ( w + 1 ) + ( x + w ) = 2 × w + x + 1 = 2 × 1 + 2 + 1 = 5 \frac{\partial y}{\partial w}=\frac{\partial y}{\partial a} \frac{\partial a}{\partial w}+\frac{\partial y}{\partial b} \frac{\partial b}{\partial w} \\ \quad = b\times1+a \times 1 \\ \quad = b + a \\ \quad = (w + 1)+ (x + w) \\ \quad =2\times w +x + 1 \\ \quad =2 \times 1 + 2 + 1 = 5 wy=aywa+bywb=b×1+a×1=b+a=(w+1)+(x+w)=2×w+x+1=2×1+2+1=5

8. 模型评估与选择

8.1 什么是误差,训练误差,泛化误差?

  • 误差:学习器实际预测输出与样本真实输出之间的差异
  • 训练误差(经验误差):学习器在训练数据集上的误差
  • 泛化误差:学习器对未知数据预测的误差

8.2 什么是过拟合,欠拟合?

  • 过拟合(overfitting):训练过度使泛化能力下降
  • 欠拟合(underfitting):未能学好训练样本的普遍规律

8.2.1 如何解决过拟合和欠拟合?

解决欠拟合的方法

  • 模型复杂化
  • 增加更多的特征,使输入数据具有更强的表达能力
  • 调整参数和超参数
  • 降低正则化约束

解决过拟合的方法

  • early stopping: 在发生过拟合之前提前结束训练。理论上可以,但是不好把握
  • 数据集扩增:就是让模型见到更多的情况,可以最大化地满足全样本,但是实际应用中对未来事件的预测显得鞭长莫及
  • 正则化:通过引入范数的概率,增强模型的泛化能力,比如L1正则,L2正则
  • Dropout:网络模型中的一种方法,每次训练时舍去一些节点来增强泛化能力

8.3 获取测试数据集常见方法

https://blog.csdn.net/pxhdky/article/details/85206705

  • 8
    点赞
  • 1
    评论
  • 26
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

©️2021 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值