【王树森】Few-Shot Learning (3/3):Pretraining + Fine Tuning(个人向笔记)

Preliminary

Few-Shot Learning 很简单,但是却能达到比较高的准确度,相反一些复杂的模型反而不能达到很高的准确率

1. Cosine Similarity

余弦相似度可以衡量两个向量的相似度

  • 假设两个向量的长度都是1:那么它们余弦相似度的计算方法如下
    在这里插入图片描述
  • 若长度不等于 1 ,则需要先对它们做一个归一化:
    在这里插入图片描述

2. Softmax Function

  • Softmax 函数的输入是任意 k 维的向量
  • 把向量的每个元素做指数变换,得到 k 个大于 0 的数
  • 对所有元素做归一化,使其总和为 1
  • 输入为 k 维,输出也为 k 维,输出是一个概率分布
    在这里插入图片描述
  • Softmax示例:Softmax会让最大的值变大,其余的值变小
  • Softmax 的名字很形象,是更为 soft 的 max
    在这里插入图片描述

3. Softmax Classifier

  • 假设类别有 k 个,那么输出就是 k 维的:
    在这里插入图片描述
  • W 有 k 行,每一行对应一个类别
    在这里插入图片描述

Few-Shot Prediction using Pretrained CNN

  • 我们用一个 CNN 来提取图片的特征,可以用各种方法来预训练这个 CNN,但是不同的训练方法的效果不同
    在这里插入图片描述
  • 对 Query 的图片用 CNN 提取特征向量后进行归一化,它的二范数等于一。对 Support 的三个向量也做相同的操作,然后让 q 对 Support Set的三个特征向量分别求余弦相似度后取 Softmax,显然 q 离 μ 1 \mu_1 μ1 最近,所以模型判断 Query 和 Support Set 的第一张图是一样的:
    在这里插入图片描述

Fine-Tuning

  • 研究表明预训练后再做 Fine-Tuning 能大幅度提高准确率
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • 7
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
王树森的Q学习是一种强化学习算法,广泛应用于机器学习领域。 Q学习是通过不断迭代更新一个称为Q值的表格来实现的。这个表格记录了每个状态和动作组合的Q值,表示在某个状态下,采取某个动作所获得的预期回报。通过学习更新Q值,智能体能够学会在不同的情境下选择最优的动作。 王树森的Q学习算法主要包含以下几个步骤: 1. 初始化Q值表格,设置初始状态和动作; 2. 在每个时间步骤中,智能体观察当前状态和可用的动作,并根据一种策略(如epsilon-greedy)选择一个动作; 3. 执行所选择的动作,观察新的状态和获得的奖励; 4. 更新Q值表格,使用Q-learning更新公式:Q(s, a) = (1 - α) * Q(s, a) + α * (r + γ * max(Q(s', a'))),其中α是学习率,γ是折扣因子,r是获得的奖励,s'是新状态; 5. 重复上述步骤,直到达到指定的终止条件(如达到最大迭代次数或Q值收敛)。 王树森的Q学习算法具有以下优点: 1. 简单而高效:Q学习算法易于理解和实现,可以在很多问题上取得良好的效果; 2. 模型无关性:Q学习不需要事先了解环境的动力学模型,只需要通过与环境的交互进行学习即可; 3. 可扩展性:Q学习可以应用于离散或连续动作空间的问题。 然而,王树森的Q学习算法也存在一些限制和挑战: 1. 状态空间和动作空间的维度较高时,Q值表格会变得非常庞大,导致算法的计算和存储开销很大; 2. Q学习对环境中随机性的处理不够灵活,可能会收敛到局部最优解; 3. Q学习算法通常需要大量的训练数据和迭代次数才能获得较好的结果。 综上所述,王树森的Q学习是一种经典的强化学习算法,通过不断更新Q值表格来实现智能体的学习和决策。虽然存在一些限制,但Q学习在许多问题上取得了良好的效果,是机器学习领域中的一项重要研究内容。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值