Deep learning
文章平均质量分 91
Caesar Zou
这个作者很懒,什么都没留下…
展开
-
深度学习⑧Meta-Learning Introduction
在持续学习中,模型会不断接收到新的任务或数据,而不希望在学习新任务的过程中遗忘旧任务。于是你的大脑(这里相当于元优化器)会根据之前做汤的经验,给自己一些建议(比如,调料的比例,控制好火候),让你能够在最短的时间内学会做别的汤。扩展数据图展示了系统化组合任务中的一些指令和组合规则,说明了如何通过已知组件生成新任务的指令,以及神经网络是如何通过这些指令完成任务的。框架的关键在于:使用分类器模型生成的重要性得分作为元优化器的输入,元优化器基于这些得分和任务特定的向量表示来预测模型的权重更新。原创 2024-09-05 12:01:45 · 1443 阅读 · 0 评论 -
⑦Multitask Learning Introduction 多任务学习
这个矩阵虽然是 3x3 的,但它的 秩(rank)为 1,因为所有的列都可以由一个向量(即 [1,2,3][1, 2, 3][1,2,3])通过线性组合得到。即有一组任务,以及共同观察的标注实例 每个任务 D(t)都有对应的输入数据和标注数据,分别从概率分布 P(X(t))和 P(Y(t))中抽取。传统的聚类算法通常在数据层面进行操作,而任务聚类则是在任务之间寻找相似性,将相关的任务分为不同的组,目的是在组内共享信息,提高学习效率。在某些应用中,任务之间的关系可能是预先已知的或可以假设的。原创 2024-09-04 11:50:12 · 910 阅读 · 0 评论 -
⑥Continual Learning Biological Underpinnings 持续学习的生物学基础
在人工智能中,这一机制可以启发多模态学习系统的设计,使模型能够整合来自不同类型数据的信息,从而增强理解能力。优化模型的资源利用和可持续性:在大规模语言模型的持续预训练中,可以借鉴生物系统中的资源效率机制,通过减少重复计算和高效使用存储资源,提升模型的可持续性。神经再生有助于学习和记忆的形成,特别是在面对新的挑战或环境变化时,通过生成新神经元,大脑可以更好地适应和学习新信息。在涉及伦理决策的应用中,如自动驾驶汽车或医疗决策支持系统,是否应该引入多方参与的伦理审查和讨论,确保系统的决策符合广泛接受的道德准则。原创 2024-09-03 19:18:30 · 1009 阅读 · 0 评论 -
深度学习⑤Continual Learning Introduction
,避免对旧任务的破坏,也就是不依赖于更新最后一层的权重,而是使用示例样本的特征均值进行分类即使新任务的学习导致表示变化,只要示例样本的特征均值保持一致,分类性能就不会显着下降。原创 2024-08-28 14:59:34 · 946 阅读 · 0 评论 -
深度学习④Deep Learning Theory:Generalization
L1 范数定义为一个向量所有元素的绝对值之和。对于向量 w 来说,L1 范数表示为:在机器学习中,𝐿1正则化的目的是通过最小化这个范数来引导模型选择一个稀疏解,即一个尽可能多的元素为零的解。这在特征选择和防止过拟合中非常有用。可以将 𝐿1正则化想象成一种机制,它迫使模型尽量少地使用特征。通过限制权重的绝对值和,模型倾向于只保留对结果影响最大的少数特征,而将其他特征的权重压缩为零。这就类似于我们在整理东西时,尽量只保留最重要的东西,把不重要的尽量丢掉。通过正则化实现泛化——边界最原创 2024-08-27 12:47:31 · 628 阅读 · 0 评论 -
深度学习③:Deep Learning Theory I
这是一个非常重要的结果,因为它解决了高维空间中的“维度灾难”问题,表明了在某些情况下,浅层神经网络的逼近能力非常强大,足以应对复杂的高维数据。通用近似定理告诉我们,神经网络可以逼近任意的连续函数,但这并不意味着所有函数都能被“简洁地”逼近,也不一定适用于高维度的数据(即维度 d 可能影响网络的逼近能力)。泛化误差包括了模型在训练数据上的表现和在未见过的数据上的表现之间的差异。PS:插值是一种构造方法,通过一组已知的离散点,构造出一个函数,使得这个函数在这些点上通过,通常用于在这些点之间预测或估计函数的值。原创 2024-08-17 22:52:40 · 889 阅读 · 0 评论 -
Deep Learning① 回顾
好的问题定义能够明确模型的目标,好的数据能够提供足够的信息来训练模型,而强大的计算能力则能够支持大规模数据的处理和复杂模型的训练。近年来,数据的爆炸性增长、硬件(如GPU和TPU)的性能提升、活跃的研究社区和开源工具的涌现,以及资本市场对AI的巨大投入,使得深度学习在许多领域取得了突破性进展。比如如果用sigmoid做激活函数,它在0周围是近似线性的,如果我们的参数都初始化为0附近,那么可能数据经过神经元之后,大部分都落在线性区,那么我激活函数引入非线性的作用将被削减。原创 2024-08-01 22:02:50 · 851 阅读 · 0 评论 -
Deep Learning Basics (Recap2)
在训练递归神经网络(RNN)时,长时间步的梯度会“消失”,这是因为在反向传播过程中,梯度是通过链式法则逐层传递的。更新门决定了输入信息和前一状态的保留程度,重置门控制了如何将当前输入与前一状态相结合,以更新当前状态。通过解决深度神经网络的退化问题(这不是过拟合问题,而是由于梯度消失或梯度爆炸导致的训练困难),极大地推动了深度学习的发展。虽然看一看将图片看作值向量,例如之前的MNIST数据集,但是对于较大的图像,需要展平为超大的向量,难以处理。”指的是输入序列中较早的信息如何影响网络之后的状态。原创 2024-08-06 11:29:00 · 603 阅读 · 0 评论