论文地址:Here
在此之前人们更关注无监督学习,2012年这篇论文之后,大量研究监督学习;
第一大贡献
原文将倒数第二层每个图片的向量拿出来,得到一个长的向量,寻找和该层向量最近的图片都有哪些,可以发现找出来的都是和每行第一个图片相关的结果。
结论:深度神经网络的一个图片训练出来的最后一个向量,在语义空间的表示非常好,也就是说用这些向量可以非常容易的找到相似的图片
第二大贡献
使用原始的图片,不做预处理,直接给网络训练。适用于端到端
-
数据的原真性:不对图片进行预处理可以保持数据的原真性,这意味着模型将直接学习从原始数据中提取特征。这可能有助于模型更好地理解和适应实际世界中的数据变化。
-
简化流程:省略预处理步骤可以简化整个训练流程,减少可能出现错误的环节,使得模型训练和部署更直接。
-
节省时间:不进行预处理可以节省大量的预处理时间,尤其是在有大量数据时。
-
模型的鲁棒性:直接处理原始数据可能要求模型具有更高的鲁棒性,因为它需要能够处理各种各样的输入变化,例如光照、噪声等。
-
避免信息丢失:预处理步骤有时可能会不小心移除对模型来说有价值的信息。直接使用原始图片确保所有可能有用的信息都保留给模型学习。
-
研究目的:从研究的角度来看,使用原始数据可以更好地评估和理解模型在没有任何额外信息帮助下的性能。
第三大贡献
分布式训练
数据并行(Data Parallelism):这是最常见的分布式训练形式,其中每个GPU都有模型的一个完整副本。每个GPU计算其数据子集的梯度,然后所有GPU上的梯度会被聚合来更新全局模型的权重。这意味着每个GPU都在训练整个模型,但只对其分配的数据子集负责。
模型并行(Model Parallelism):在这种方法中,模型的不同部分会放在不同的GPU上。这通常在模型太大,无法放入单个GPU的内存中时使用。每个GPU负责模型的一部分,需要在GPU之间交换中间结果,这会带来额外的通信开销。