阿里CV面试官对招人的几点看法-CSDN博客

点击上方“CVer”，选择加"星标"置顶

重磅干货，第一时间送达

作者：CVer交流群的一名粉丝

最近忙于招聘，一个月下来简历看了不下1500封，面试不下十几场，但是能招到的符合需求的CV人才寥寥无几。CNN在视觉领域的突破最早带火了深度学习，CV在各个行业领域得到了更为广泛的应用，这些年下来市场上整体CV人才的供给其实还是比较充沛的，但为什么招人这么困难？我想了想主要是在我们框定的人才范围内，人才其实是极其稀缺的，是绝对的卖方市场。那我们框定的CV人才范围是什么样的？跟市场上大多数CV人才的差别是什么？

基于我个人的理解，市场上稀缺优质的CV人才在掌握传统CV和深度学习的基本功之上还需要具备以下四项能力。

1）业务到算法的建模能力。

很多业务问题没有直接对应的paper和模型，需要自己针对业务场景建模寻找合适的模型构建技术方案。记得参加阿里内部管理培训侠客行讨论招聘问题的时候，培训老师提出过一个问题——如何判断一个候选人是不是聪明？最后大家一致认可的观点是——考察一个人的知识迁移能力。在面试中，知识迁移能力一般会通过开放型问题来考察，比如：你是做人脸识别的，那我可能会问，在疫情期间大家都戴口罩的情况下，基于你现有的解决方案，如何最快的搞出一个戴口罩人脸的识别方案来？开放型问题需要候选人基于现有的知识，去对新的问题建模。往往需要对数据构建方式，模型结构，训练目标，评估方式等进行一定的调整。校招的时候我甚至会问一个NLP方向的候选人一个有一定关联性的CV问题，比如对于做过文本语义分割的同学，我会问他对视频场景分割有什么想法？对于这种问题，面试官并不一定期望你给出正确的答案，而是看你是否真正掌握了解决问题的建模思路，沿着类似的思路去分析问题。开放型问题一般是面试过程中候选人回答的比较差的，毕竟没法像coding题目或者讲项目一样提前准备，如果平时解决问题都是直接照搬成熟解决方案，缺乏自己的思考的话往往会一时没有思路。

2）基于业务场景的训练数据构建能力。

很多模型在工业界落地必须基于实际的业务数据进行调整，比如我们最近在做的视频摘要算法，学界常用的SumMe，TVSum都是规模非常小的训练集，只能作为发paper的benchmark，在工业界实现视频摘要算法，则必须基于业务场景，构建大规模的视频摘要有监督训练集。大家平时做项目的过程中，除了使用一些常用的公开数据集以外，有没有尝试过从业务数据出发，构建基于实际业务场景的数据？在一些大数据场景下构建数据集的时候，是不是具备大数据的处理能力？有没有关注过公开数据集和业务数据的差别是什么？如何评估数据集的质量？如何对数据进行清洗挑选？其实现在大家用的模型结构越来越趋同，NLP已经在Bert上形成了大一统的局面，CV任务的Backbone也逃不过常用的ResNet，EfficientNet等，很多时大家对候模型结构的调整趋于玄学（知其然而不知其所以然，只有实验结果和猜测，没有严格地论证），而且调整模型结构后需要大量的训练集进行重新训练。所以大家的工作更多的时候都是在做各自业务场景下的模型finetune。相较于模型本身，我感觉数据上可以发挥做出亮点的空间反而更大。

3）模型产品化落地能力。

近年来很多深度学习研究成果都面临业务落地的问题，一些很牛的模型到了实际业务场景中很难发挥理想中的作用，那么学界的研究成果跟实际业务落地之间的Gap到底是什么呢？同样以视频摘要模型来举例，一些SOTA的基于3D卷积的视频摘要模型，虽然对于动作类摘要的效果要明显好于多帧做embedding之后再融合的模型。但是3D的卷积的计算复杂度太高，训练难度也大，在实际业务场景中落地受限于计算资源，很难做到较高的覆盖率，实际业务价值就会大打折扣。此外，学界对摘要抽取效果进行评估，通常使用人工标注的方式，但是人工标注的数据集一来规模太小无法覆盖不同的视频内容类型，二来在人工标注的结果标注成本极高且具有较强的主观性。在实际业务场景下，如何客观评估摘要抽取的准确性是一个模型落地的难点。最后，考虑到业务数据的多样性和复杂性，基于深度学习模型生成的摘要会出现诸如：包含片头片尾，过场画面，内容重复等体感问题，如何解决这些体感问题呢？总而言之，研究成果在业务落地的过程中往往都会面临性能问题，极端badcase问题，体感问题，评价指标问题等等。解决这些问题需要很强的工程能力以及基于业务数据分析发现badcase的能力，很多候选人对于自己的模型表现为什么不好，badcase的类型和分布，模型提升的可能性思考的其实很少，往往都是这个模型不太行我就换一个今年最新的SOTA模型试一试。

4）Coding能力！！！

最近几年校招面试一个越来越强烈的感受是，很多同学说起最新的深度学习研究成果来头头是道，但是一旦到写代码的阶段就问题百出，19年春季实习招聘的时候，我一道二分查找的题目基本上85%的候选人都不能写出bug free的代码。考虑到有些同学没时间刷题，有时候我会降低难度到不考察算法和数据结构，只考察Coding能力，比如用numpy实现一下卷积操作，但仍然有CV方向的同学写不出代码。不管深度学习玩得多溜，项目讲得多好，Coding能力不行按照我的标准肯定是不给过的。而且即使工作以后社招面试，到了阿里P8层级的技术面试基本也是需要写代码的。我们每年招聘应届生进来，一般都是先重点培养代码能力和工程能力，如何解决环境问题，如何处理海量的数据，如何搭建业务流程，如何自己搭建前端demo，不管是什么方向的算法工程师，必须得先是工程师，Coding能力一直以来都是我们招聘的硬门槛。

总体感觉面试时候讲自己的项目，回答深度学习的一些核心知识点，大多数准备充分的候选人都能做得不错，但以上四点只有很少很少的候选人能够做到，这些候选人在市场上是极度稀缺且具有很强的议价能力的。

我们做算法项目不只是训练模型和调参，需要的是一套完整的技术解决方案，包括业务问题建模，模型选型，训练数据构建，模型调参，badcase分析，模型性能优化与部署，指标体系设计，线上效果评估，核心指标监控等一整套环节，任何一个环节的缺失都会导致最终的业务成果不及预期。

阿里的绝大多数业务技术团队招聘CV人才是希望人来了以后能实际解决业务痛点，创造业务价值的，如果只是对SOTA的模型和研究成果掌握的比较好，但是缺乏上述任何一个能力的话，在实际业务场景中往往是很难落地的。

--- 阿里内推信息 ---

！！！阿里巴巴夸克智能搜索团队大量HC热招中，有志于一起探索视觉AI技术在大数据场景下的无限可能的小伙伴欢迎加入我们！以下是目前的热招岗位：

【夸克多媒体/视觉算法专家】

Base地：杭州

工作年限：2年以上

岗位描述：

1.参与视觉交互相关算法的研发工作，包括但不限于人脸检测，注视点预测，动作检测等算法能力的研发和落地，优化视觉交互体验

2.参与视频结构化分析的相关研发工作，包括但不限于视频段落切分，关键点识别与定位等，提升视频内容结构化能力

3.参与视觉相关算法的压缩和移动端部署相关工作，包括但不限于模型的剪枝，蒸馏，加速以及移动端部署，优化算法功能在移动端的用户体验

岗位要求：

1.硕士及以上学历，图像处理、模式识别、机器学习、应用数学相关专业

2.熟练掌握C++/Python等一种或多种编程语言，熟练掌握OpenCV等传统图像处理工具，熟悉以下一种或多种深度学习开发框架：Tensorflow, PyTorch，Caffe等

3.良好的视觉算法建模和开发能力，了解主流的图像和视频领域SOTA研究成果

4.在视频结构化，多模内容理解，视频风格化迁移，动作检测与识别，视觉交互算法等技术方向有丰富的实操经验

5.丰富的CV方向工作经验，实际参与过完整地CV相关产品的技术研发和落地，具备以下能力

1）能够基于需求拆解技术目标，设计出可行的技术方案

2）找到合适的基础模型或相关技术框架，合理组合或改进现有的基础方案或模块

3）拥有模型压缩，蒸馏以及移动端部署经验

4）具备丰富地模型调参和优化经验

5）能够合理地设计业务指标验证技术在业务场景的落地效果

5.具备视频编解码和网络传输等相关技术经验者优先

所在团队：阿里巴巴创新事业群夸克智能搜索

【内容和推荐算法专家】

Base地：杭州

工作年限：2年以上

岗位描述：

1.负责夸克学习服务中用户画像体系的建立,包括题目理解、学生/老师能力建模

2.参与和负责夸克学习服务中派单以及课程推荐算法开发,通过强化学习，autoML 等优化派单及推荐策略

岗位要求：

1.本科及以上学历，模式识别、机器学习、计算机/软件工程/应用数学相关专业

2.熟悉linux,熟练掌握C++/Python等一种或多种编程语言,熟悉以下一种或多种深度学习开发框架：Tensorflow, PyTorch，Caffe等

3.熟悉深度学习以及常见机器学习算法的原理与算法,能熟练运用分类、回归、排序等模型解决有挑战性的问题

4.有数据挖掘、强化学习、自然语言理解、推荐系统、计算广告学及算法博弈论相关领域研究和实践经验者优先

所在团队：阿里巴巴创新事业群夸克智能搜索

【风控算法专家】

Base地：杭州

工作年限：2年以上

岗位描述：

1.参与搜索生态下的风控算法开发,包括但不限于封禁词(涉政,涉黄,涉赌)识别,违规图(涉政,涉黄,恐暴,恶心)识别

2.参与搜索生态下的风控系统开发,包括风险舆情监控,风险图谱建设等

3.洞察业务风险,挖掘用户/客户特征,应用机器学习构建风控模型,对教育服务场景中的欺诈、聚集性等用户/客户风险进行识别

岗位要求：

1.本科及以上学历，模式识别、机器学习、计算机/软件工程/应用数学相关专业

2.熟悉linux,熟练掌握C++/Python等一种或多种编程语言,熟悉以下一种或多种深度学习开发框架：Tensorflow, PyTorch，Caffe等

3.熟练掌握各种传统机器学习/数据挖掘算法,如:gbdt, svm等

4.具备一定的深度学习开发经验(NLP或CV),对经典的深度学习模型(如:BERT,LSTM,CNN)有深入理解

5.有较丰富的数据挖掘实战经验,以及风控相关经验者优先

所在团队：阿里巴巴创新事业群夸克智能搜索

内推邮箱：hangcheng.zhc@alibaba-inc.com

邮箱主题/简历命名格式：阿里巴巴夸克招聘-岗位名称-姓名-CVer推荐

CV资源下载

后台回复：CVPR2020，即可下载代码开源的论文合集

后台回复：ECCV2020，即可下载代码开源的论文合集

后台回复：YOLO，即可下载YOLOv4论文和代码

后台回复：Trasnformer综述，即可下载两个最新的视觉Transformer综述PDF，肝起来！

重磅！CVer-细分垂直交流群成立

扫码添加CVer助手，可申请加入CVer-细分垂直方向 微信交流群，也可申请加入CVer大群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、Transformer、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如目标检测+上海+上交+卡卡），根据格式备注，才能通过且邀请进群