Detectron研读和实践一:detectron框架概览

引言

Detectron是Facebook AI研究院(FAIR)于2018年初公开的目前为止业内最佳水平的目标检测平台。据介绍,该项目自 2016 年 7 月启动,构建于 Caffe2 之上,目前支持大量机器学习算法,其中包括 Mask R-CNN(何恺明的研究,ICCV 2017 最佳论文)和 Focal Loss for Dense Object Detection,(ICCV 2017 最佳学生论文)。Facebook 称,该工具包已被应用与公司内部很多团队应用于各类应用中,一旦训练完成,这些计算机视觉模型可被部署在云端或移动设备上。
该工具的开源对于研究目标检测的朋友来说有极大的帮助,可以帮助他们利用最先进的深度学习目标检测技术快速构建自己的模型和应用,也可在其上开展进一步的研究,无论从工程上还是从学术研究上都有较大的参考价值。由于本人目前的课题方向也是目标检测,因此准备好好研读一番Detectron的源码,记录下自己的一些理解和体会,也希望能与志同道合的朋友一起交流探讨。

Detectron的安装和使用

关于Detectron的具体安装和使用可以参考该项目的github,英语不好的朋友也可以直接看Caffe2—Detectron初步使用这篇博客,基本把该项目github上的相关说明和介绍翻译过来了。

各模块简要介绍

Detectron 框架包含 config,demo,lib,tests 和 tools 等文件夹,下面对各文件夹进行简要地介绍。

1.config 包含着各个模型的训练和测试参数。其中有2017年12月公布的众多baselines的配置参数以及Using detectron教程中提到的多种GPU方案训练以ResNet-50-FPN为backbone的Faster R-CNN的配置参数。

2.demo主要存了一些用于detectron演示的测试图片和输出结果。

3.lib 是 detectron 的核心文件夹,又包含若干重要的子文件夹,例如 core,datasets,modelings,roi_data,ops,utils等。

  • core:主要包含项目默认的配置(config.py),生成rpn proposal的相关函数(rpn_generator.py)以及推理测试相关的一些文件(test.py等)
  • datasets:主要涉及一些与数据集相关的文件。其中data子文件夹用于存储训练数据集,支持训练的数据集有COCO、PASCAL_VOC和cityspaces。注意label文件的格式是json格式的。VOCdevkit-matlab子文件夹主要包含一些与数据集评价有关的文件。
  • modeling:这又是lib中核心的模块,包含很多优秀的目标检测网络的实现,如Faster R-CNN,Mask R-CNN,FPN,R-FCN,Retinanet等,且都尽可能被组织成了子模块的形式,方便进行使用。
  • ops:主要是定义了一些与生成和分配proposal相关的operators,用于辅助modeling.detector模块中的相关函数(包括GenerateProposals(),GenerateProposalLabels()和CollectAndDistributeFpnRpnProposals())。
  • roi_data:涉及各种网络minibatches的构建,加载和通用帮助函数。
  • utils:包含学习率等其它一些非核心函数。

4.tests包含对一些操作如数据加载、bbox变换等的测试文件。

5.tools包含使用detectron进行模型训练、测试、可视化结果和简单推理等操作的工具函数。

参考资料:
1. 从论文到测试:Facebook Detectron开源项目初探| 机器之心

  • 6
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 《计算机视觉 : 一种现代方法 第二版 pdf》是一本介绍计算机视觉领域基础理论和方法的书籍。计算机视觉是一门研究如何让计算机能够“看”的学科,它使用计算机科学和人工智能的方法来解决从图像或视频中获取、处理和理解信息的问题。 这本书是计算机视觉领域的经典教材之一,第二版对第一版进行了更新和扩充。书中首先介绍了计算机视觉的基本概念和应用领域,包括图像处理、模式识别和三维重建等。接着,书籍详细阐述了计算机视觉中的各种算法和技术,包括图像特征提取、目标检测与跟踪、图像分割和图像匹配等。 此外,该书还介绍了计算机视觉中的一些高级主题,如深度学习在计算机视觉中的应用、立体视觉和物体识别等。书中的内容深入浅出,既易于理解又具有一定的深度,适合作为计算机视觉领域的入门教材或用于相关专业人员的学习和研究参考。 《计算机视觉 : 一种现代方法 第二版 pdf》的特点包括内容详尽全面、理论与实践相结合、案例丰富。读者通过学习该书,可以获得对计算机视觉领域的全面了解,掌握计算机视觉的基本原理和常用技术,为进一步深入研究和应用提供基础。 最后,这本书广泛应用于计算机科学、人工智能、机器学习、图像处理等相关专业的教学和研究领域。无论是学生、研究人员还是从业人员,都可以通过阅读该书来提高对计算机视觉的认识和应用能力。 ### 回答2: 《计算机视觉:一种现代方法第二版》是由David A. Forsyth和Jean Ponce合著的计算机视觉领域的经典教材。该书详细介绍了计算机视觉的基础理论、算法和相关应用,旨在帮助读者深入理解计算机视觉的概念和实践。 该书共分为16个章节,内容包括图像处理、图像特征、几何与相机模型、图像检索、物体识别与跟踪等方面。通过对这些章节的学习,读者可以系统地了解计算机视觉的基本原理和技术,从而为实际应用提供参考。 其中,该书第二版相较于第一版进行了重大更新和改进。新版书中包含了最新的理论和算法,如深度学习、卷积神经网络等,以及一些实际应用案例,如人脸识别、自动驾驶等。此外,书中还涵盖了现代计算机视觉领域的前沿研究和挑战,引导读者深入思考和探索未来发展方向。 《计算机视觉:一种现代方法第二版》以其系统性、全面性和权威性而受到广大学习者和研究者的欢迎。读者不仅可以通过该书学习计算机视觉的基本概念和技术,还可以通过练习题和实践项目提升自己的实际操作能力。年轻的研究者可以通过深入研读此书,拓展自己的研究领域;工程师和开发者可以将书中的理论和技术应用于实际项目中,提升工作效率和质量。 总之,《计算机视觉:一种现代方法第二版》是一本权威、实用的计算机视觉教材,对于想要深入学习和应用计算机视觉的读者而言,具有极高的参考价值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值