详细版【机器学习概述】(邱锡鹏)

本文深入探讨机器学习,包括机器学习的基本概念、模型类型、学习准则、损失函数、优化算法以及评估指标。特别关注了深度学习、线性回归以及监督和无监督学习的不同。此外,还讨论了特征选择、表示学习和如何衡量模型的性能。
摘要由CSDN通过智能技术生成
  • 机器学习(Machine Learning,ML)是指从有限的观测数据中学习(或“猜测”)出具有一般性的规律,并利用这些规律对未知数据进行预测的方法。深度学习是机器学习的一个分支,是指一类问题以及解决这类问题的方法,其采用的模型一般比较复杂
    在这里插入图片描述
  • 语义鸿沟(学习的关键):输入数据的底层特征和高层语义信息之间的不一致性和差异性。如给定一些“车”的图片,它们在像素级别上的表示(即底层特征)差异性非常大。
    在这里插入图片描述

机器学习概述

  • 机器学习:让计算机从数据中进行学习,得到某种知识/规律(早期被称为模式识别)

  • 一些基本概念

    • 特征/属性,标签(需要预测的指标,离散或连续均可)
    • 样本/示例:一个标记好特征以及标签的个体
    • 数据集:一组样本。被分成训练集/训练样本和测试集/测试样本
    • 特征向量:所有特征构成的向量𝒙 = [𝑥1 , 𝑥2 , ⋯ , 𝑥𝐷] T
    • 学习算法/训练过程 A \mathcal A A:假设训练集 D \mathcal D D由N个样本组成(每个样本都是独立同分布),独立地从同分布中抽取数据:𝒟 = {(𝒙(1), 𝑦(1)), (𝒙(2), 𝑦(2)), ⋯ , (𝒙(𝑁), 𝑦(𝑁))},再给定一个函数集合ℱ = {𝑓1 (𝒙), 𝑓2 (𝒙), ⋯}自动寻找一个“最优”函数 f \mathcal{f} f*(x)来拟合(不是自己产生!而是寻找一个!)
      在这里插入图片描述
  • 三个基本要素

    • 模型:要确定其输入空间𝒳输出空间 y \mathcal y y(共同构成样本的特征空间,(𝒙, 𝑦) ∈ 𝒳 × y \mathcal y y),给出假设空间,即根据经验假设的函数集合ℱ = {𝑓(𝒙; 𝜃)|𝜃 ∈ ℝ𝐷},这些f(x)就是模型。

      • 线性模型:𝑓(𝒙; 𝜃) = 𝒘T𝒙 + 𝑏
      • 非线性模型:𝑓(𝒙; 𝜃) = 𝒘T𝜙(𝒙) + 𝑏,其中𝜙(𝒙) = [𝜙1 (𝒙), 𝜙2 (𝒙), ⋯ , 𝜙𝐾(𝒙)]T 为𝐾 个非线性基函数组成的向量,参数 𝜃 包含了权重向量𝒘和偏置𝑏.
    • 学习准则:模型好坏通过期望风险来衡量ℛ(𝜃) = 𝔼(𝒙,𝑦)∼𝑝𝑟 (𝒙,𝑦)[ℒ(𝑦, 𝑓(𝒙; 𝜃))](含义:使用符合真实数据分布的数据,衡量其预测值和真实值的偏差)ℒ(𝑦, 𝑓(𝒙; 𝜃))为损失函数(非负实数函数)。

      • 损失函数

        • 0-1函数(0-1 Loss Function):客观,但数学性质不好

        • 平方损失函数(Quadratic Loss Function):ℒ(𝑦, 𝑓(𝒙; 𝜃)) = 1 2 \frac{1}{2} 21 (𝑦 − 𝑓(𝒙; 𝜃)) 2 不适合分类问题

        • 交叉熵损失函数(Cross-Entropy Loss Function):
          1.假设样本的标签 𝑦 ∈ {1, ⋯ , 𝐶} 为离散的类别(即y共有这C种可能的取值)
          2. 模型 𝑓(𝒙; 𝜃) ∈ [0, 1]𝐶 的输出为类别标签的条件概率分布(即输出的是一个C维的变量,每一维的取值介于0和1之间,第k维的取值是模型的预测结果:在当前 𝜃下输入当前x,输出是k的概率即 𝑝(𝑦 = 𝑐|𝒙; 𝜃) = 𝑓𝑐 (𝒙; 𝜃),其中 𝑓𝑐 (𝒙; 𝜃) 表示 𝑓(𝒙; 𝜃) 输出向量的第𝑐维,满足 𝑓𝑐 (𝒙; 𝜃)∈[0, 1],∑ 𝑓𝑐 (𝒙; 𝜃) = 1(概率和必然为1)
          3. 我们可以用一个𝐶 维的one-hot向量𝒚</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值