【ML】机器学习基本任务:回归与分类(生成模型朴素贝叶斯与判别模型逻辑回归)

回归

1. 模型建立

  • 模型:这里为线性模型;
  • 衡量模型好坏:损失函数;
    在这里插入图片描述
  • 训练模型目标:最小化损失函数,优化方法求解优化问题;
    在这里插入图片描述

2. 模型评价

  • 训练集、测试集上的平均误差:主要关注测试集上的平均误差;

3. 模型优化

3.1 增大模型复杂度

  • 随着模型复杂度的增加,训练集上的平均误差逐渐减小,测试集上的平均误差先减小后增大,过于复杂的模型会出现过拟合现象;

3.2 考虑隐变量

  • 不同的隐变量取值,建立不同的模型;

    其中 δ \delta δ为示性函数。

  • 可在此基础上进一步增加模型复杂度;

3.3 正则化

  • 线性模型为例:惩罚较大的系数项,希望获得较小的系数项;
  • 数据有噪声,系数较小的模型受噪声的影响较小。
    在这里插入图片描述
  • 正则化参数 λ \lambda λ:平衡拟合优度和惩罚项
    在这里插入图片描述

4. 模型选择

误差的来源:偏差与方差

偏差与方差,经验误差与泛化误差、过拟合与欠拟合

  • 简单的模型受样本数据影响小,估计量的偏差大、方差小;复杂模型相反;
    在这里插入图片描述
  • 偏差、方差不能同时达到最小;
    在这里插入图片描述

偏差太大、欠拟合

  • 增加特征;
  • 增加模型复杂度。

偏差太大、欠拟合

  • 增加数据;
  • 正则化。

二分类

分类任务实例

  • 信用评级
  • 医疗诊断
  • 手写字体识别
  • 人脸识别

分类模型框架

  • 线性模型做分类存在问题:
    在这里插入图片描述
  • 理想的分类模型框架:
    在这里插入图片描述

1. 朴素贝叶斯模型(生成模型框架)

  • 模型
    在这里插入图片描述

  • 先验概率
    在这里插入图片描述

  • Probability from Class:考虑两个特征,即 x x x是二维的;假设数据来自高斯分布,不同类别的数据来自不同的高斯分布, P ( x ∣ C 1 ) ∼ N ( μ 1 , Σ 1 ) P(x|C_1)\sim \mathcal{N}(\mu^1,\Sigma^1) P(xC1)N(μ1,Σ1) P ( x ∣ C 2 ) ∼ N ( μ 2 , Σ 2 ) P(x|C_2)\sim \mathcal{N}(\mu^2,\Sigma^2) P(xC2)N(μ2,Σ2);极大似然法求出参数,
    在这里插入图片描述

  • 分类
    在这里插入图片描述

  • 精度分析:决策边界是个曲线,精度不是很高
    在这里插入图片描述

  • 模型优化:减少参数,假设两个类别共用一个协方差
    在这里插入图片描述
    优化结果:精度提升,决策边界是线性的
    在这里插入图片描述

模型特点:为什么共用协方差阵是分类边界是线性的

  • 当两个类别共用一个协方差时, ∃ w , b \exist w,b w,b使得 P ( C 1 ∣ x ) = σ ( w T + b ) P(C_1|x)=\sigma(w^T+b) P(C1x)=σ(wT+b)
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

2. 逻辑回归(判别模型框架)

  • 模型:直接估计 w , b w,b w,b
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • 损失函数:最小化负对数似然函数 ⟺ \Longleftrightarrow 最小化交叉熵损失函数
    在这里插入图片描述
  • 梯度下降求解
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

损失函数为什么不选残差平方和

  • 残差平方和函数的梯度在距离最优值很远的点处也很小
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述

逻辑回归的局限

  • 决策边界是线性,不能对“异或”问题准确分类
    在这里插入图片描述
  • 解决方法:特征变换(诸如SVM中核技巧)
    在这里插入图片描述
    在这里插入图片描述

逻辑回归与线性回归的区别
在这里插入图片描述

3. 生成模型与判别模型

  • 朴素贝叶斯模型中通过估计 μ , Σ \mu,\Sigma μ,Σ进而计算得到的 w , b w,b w,b与逻辑回归中直接估计得到的 w , b w,b w,b不同:生成模型中对概率分布作了假设,判别模型中没有作任何假设在这里插入图片描述

生成模型优势

  • 生成模型对概率分布作了假设,受数据的影响较小,
    • 不需要太大的数据集,
    • 对于噪声数据更具有稳健性;
  • 先验概率 P ( C 1 ) P(C_1) P(C1)与依赖类别的概率 P ( x ∣ C 1 ) P(x|C_1) P(xC1)可以通过不同的数据集来估计。

多分类

在这里插入图片描述
在这里插入图片描述


李宏毅2020深度学习

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值