商汤研究院-Spring&AutoML团队招聘啦~

最新推荐文章于 2022-09-27 18:36:01 发布

我爱计算机视觉

最新推荐文章于 2022-09-27 18:36:01 发布

阅读量856

点赞数

文章标签：机器学习人工智能深度学习计算机视觉大数据

商汤研究院-Spring&AutoML团队招聘啦，社招&校招&实习岗位hc全面开放~ 想换个工作做点落地/有挑战性工作的社会大哥/大姐/代码高手，马上毕业/还没毕业想找个地方好好成长的萌新/潜力小弟，把简历砸过来吧~（邮箱见最后）

团队介绍

介绍一下团队，Spring团队与 @孙明负责的AutoML(搜索与决策EE)团队共同隶属于研究院-工具链，目标、或者说已经在做并且小有成效的事情，是打造工业级的AI模型生产框架，赋能公司各个业务线，优化研究员的训练体验，提升训练baseline；同时尝试通过全流程的AutoML技术改进模型交付流程，提升效率，是一个十分典型的“中台团队”。

并且，Spring还作为核心引擎，支持公司对外全栈模型训练产品“深泉”，详情戳：http://security.asmag.com.cn/news/201911/101657.html

团队的独特之处在于：

我们不生产模型，但我们开发生产模型的工具与框架，帮助研究员更好更快的训练和交付模型。

团队开发的工具会涉及研究员训练模型的全流程，包括数据接入、模型定义、训练效率、模型压缩、产品化部署、自动化精度测试对齐等等，也关注目标检测、图像分类的框架开发与沉淀。除了这两个任务之外，其他小伙伴基于Spring而开发的生态项目，已经覆盖几乎所有产品交付的训练任务，正在成规模的提升研究员的产出效率，降低重复开发工作量。

下面分别列一下我们关注的各个领域，有感兴趣方向尽快对号入座哇~

模型全生命周期自动部署（Spring）

模型部署是我们做的时间最长的领域，也是深度学习落地流程中最为dirty而又充满挑战的一环。经过多年的沉淀和框架的打磨，我们事实上已经打造出一套多平台、自动化、高效能的部署工具链。可能是现在市面上针对计算机视觉任务，模型交付周期最短、支持平台最多、计算效率最高的平台。基本上做到了“一次上传，多平台编译打包”，“极小时间成本接入一个新的硬件平台”，解放研究员们生产力。

如果你对以下问题有深刻见解，或者感兴趣，欢迎投递本方向：

- 如何进行端到端部署，cover神经网络前处理与后处理？

- 如何在特定模型与平台上达到极致性能？

- 如何快速、有节奏的支持研究员定义的新op？

- 为何不同硬件的计算的结果不完全一样？

- 量化、稀疏技术具体是如何加速模型推理？

- 如果使用tvm接入一个新硬件，有哪些步骤，不同硬件接入方式有哪些不一样？

- resize有哪些不同的计算方法？

基础模型结构与高性能预训练模型（Spring&EE）

各个计算机视觉任务的模型精度和速度极大程度依赖于一个优秀的backbone，从resnet横空出世之后，暴力美学党鼻祖--Google开始基于大算力搞NAS（网络结构搜索）。那之后，每隔一段时间就会基于NAS冒出一个xxnet，先把resnet拉出来吊打一遍，在把其余net画一条线”稳压一头“，可谓百花齐放。这些百花到底哪些是真正靠谱，能让所有任务都可以获得”免费的午餐“----精度又高速度又快，其实并不是一个很容易回答的问题。

如果你对以下问题有深刻见解，或者感兴趣，欢迎投递本方向：

- 决定一个模型在一个硬件上跑得快不快的因素有哪些？

- 是否存在一个网络结构对于所有任务和数据集都表现优秀？

- 模型参数预训练为何能够帮助提升下游任务？

- batch size在各种硬件平台上的具体实现有哪些？

- Gflops靠谱吗？为什么？

- One-for-all的NAS技术的优势在哪？

- 如何理解CNN学习到的特征？

训练加速与大规模分布式计算（Spring）

效率是一切系统的重要指标，训练系统尤甚。我们一方面希望在单节点内部的计算：包括图片读取、前处理、前传、反传、梯度更新进一步压榨性能。也希望在同时调用大量节点计算的同时，尽可能可以达到线性加速效果。

如果你对以下问题有深刻见解，或者感兴趣，欢迎投递本方向：

- 模型训练时候的显存占用分为哪些部分？

- 低精度训练加速技术的核心难点在哪？

- 图片格式影响训练效率吗？

- 一系列串行计算应当如何并行加速？

- 训练框架分别如何存储/处理模型参数与激活值？生命周期是怎么样的？

- 训练系统支持新的硬件有哪些技术难点？

模型量化与稀疏（Spring）

模型量化与稀疏领域一样，学术界与工业界之间的gap之大令人咋舌。在16年的时候XNorNet早早的把特征值和参数做到了1bit，但是在2019年甚至2020年，众多从业者依然在和8bit的精度损失进行惨烈搏斗。究其原因在于，量化与稀疏在不同的setting、不同硬件、不同任务、不同评价指标之下，难度相差十万八千里。我们及时发现了这个问题，随后在模型量化工业级大规模落地的压力驱动下，探索出了一条成功的技术路线。除了多硬件、多任务、多模型的大量落地之外，我们也在尝试引导学术走向更加合理的道路。

如果你对以下问题有深刻见解，或者感兴趣，欢迎投递本方向：

- 如何看待离线量化(PTQ)和在线量化(QAT)之间的异同，你更喜欢哪种？

- 模型稀疏分为哪几种？

- 什么度量适合衡量模型量化误差？

- 你了解哪些稀疏方案十分适合硬件加速？

- 稀疏与编译有哪些结合的点？

- 如何看待无数据(datafree)量化？

目标检测与分类框架（Spring&EE）

目标检测与分类是计算机视觉中最重要的两个任务，基于Spring所开发的知名（可以找你身边的商汤研究小伙伴求证是否知名XD ）框架：POD、Prototype 被大量使用在各个业务线上进行低成本的算法落地。

如果你对以下问题有深刻见解，或者感兴趣，欢迎投递本方向：

- 如何用一个框架支撑不同的目标检测算法？

- 如何在长尾分布的数据上训练高精度模型？