【PaperKey】ALEXNet

B.Brick

于 2024-04-02 19:18:11 发布

阅读量345

点赞数 3

文章标签：目标检测机器学习目标跟踪自动驾驶神经网络深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37794738/article/details/137284637

版权

论文地址：Here

在此之前人们更关注无监督学习，2012年这篇论文之后，大量研究监督学习；

第一大贡献

原文将倒数第二层每个图片的向量拿出来，得到一个长的向量，寻找和该层向量最近的图片都有哪些，可以发现找出来的都是和每行第一个图片相关的结果。

结论：深度神经网络的一个图片训练出来的最后一个向量，在语义空间的表示非常好，也就是说用这些向量可以非常容易的找到相似的图片

第二大贡献

使用原始的图片，不做预处理，直接给网络训练。适用于端到端

数据的原真性：不对图片进行预处理可以保持数据的原真性，这意味着模型将直接学习从原始数据中提取特征。这可能有助于模型更好地理解和适应实际世界中的数据变化。
简化流程：省略预处理步骤可以简化整个训练流程，减少可能出现错误的环节，使得模型训练和部署更直接。
节省时间：不进行预处理可以节省大量的预处理时间，尤其是在有大量数据时。
模型的鲁棒性：直接处理原始数据可能要求模型具有更高的鲁棒性，因为它需要能够处理各种各样的输入变化，例如光照、噪声等。
避免信息丢失：预处理步骤有时可能会不小心移除对模型来说有价值的信息。直接使用原始图片确保所有可能有用的信息都保留给模型学习。
研究目的：从研究的角度来看，使用原始数据可以更好地评估和理解模型在没有任何额外信息帮助下的性能。

第三大贡献

分布式训练

数据并行（Data Parallelism）：这是最常见的分布式训练形式，其中每个GPU都有模型的一个完整副本。每个GPU计算其数据子集的梯度，然后所有GPU上的梯度会被聚合来更新全局模型的权重。这意味着每个GPU都在训练整个模型，但只对其分配的数据子集负责。

模型并行（Model Parallelism）：在这种方法中，模型的不同部分会放在不同的GPU上。这通常在模型太大，无法放入单个GPU的内存中时使用。每个GPU负责模型的一部分，需要在GPU之间交换中间结果，这会带来额外的通信开销。

博客等级

码龄8年

28
原创

335
点赞

316
收藏

649
粉丝

关注

私信

热门文章

分类专栏

【C++造神计划】付费

展开全部收起

上一篇：: 【vscode】Compiler configuration

下一篇：: 【Transformer】论文介绍

最新评论

【ONNX】构建
普通网友: 好文！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
【C++造神计划】运算符
2301_80164228: 造神是什么意思
【C++造神计划】变量
CSDN-Ada助手: 恭喜您撰写第20篇博客，“【C++造神计划】变量”！持续创作不易，您的热情和努力让读者受益良多。在未来的创作中，或许可以探讨一些实际项目中常见的变量应用案例，以及如何通过变量的合理运用提升代码的可读性和效率。期待您更多精彩的分享！
【C++造神计划】常量
CSDN-Ada助手: 恭喜您发布第19篇博客！坚持不懈地分享C++造神计划的知识，真是令人钦佩。建议您在接下来的创作中，可以深入探讨常量在C++中的应用场景，或者结合实际案例进行讲解，让读者更加易于理解和应用。期待您更多精彩的博客内容，加油！祝您创作顺利！
【C++造神计划】指针 - 1
CSDN-Ada助手: 恭喜你写了第17篇博客！指针是C++中非常重要的概念，你的文章对于初学者来说肯定有很大的帮助。希望你能继续保持创作的热情，不断分享自己的学习心得。接下来可以考虑深入探讨一些高级的指针用法，或者结合实际项目案例进行讲解，这样会更加丰富和有趣哦！期待你的下一篇作品，加油！👏👏👏

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。