为什么大公司都粗暴地用学历筛简历？他们不怕漏掉顶级人才吗？

最新推荐文章于 2024-08-14 23:30:40 发布

MatheMagician

最新推荐文章于 2024-08-14 23:30:40 发布

阅读量800

点赞数 1

文章标签：编程语言人工智能 xhtml twitter cstring

本文链接：https://blog.csdn.net/magic2728/article/details/120008740

版权

早点关注我，精彩不迷路！

有段时间，我常听到一些朋友抱怨，在一些大厂的热门岗位的招聘中，投递简历往往就是石沉大海，杳无音讯，连面试的机会都没有。而据了解，其实这样结果的原因很简单，那就是在简历初筛的过程中，可能并没有那么多时间来看你的详细资料，也判断不清楚你未来的发展趋势，于是便采用了最暴力的筛选方法——卡学历，卡学校，甚至用一些机器学习模型来做第一轮过滤，在过了这一轮以后，才是更细致的笔试和面试。相反，在没有那么多筛选量的初创公司，可能还会更不拘一格用人才，考察得更细，更深，偶尔还会有意外惊喜，招到最合适的顶级人才。

有人就会想，我这么牛逼，你简历都不让过，难道大厂们不怕漏掉百年难得一遇的人才吗？

很遗憾，人家还真不怕。而且事实证明，这才是和规模相适应的最佳招聘工作流程。

人家大公司为啥敢把你淘汰了？

大厂和初创公司的区别，有点像一个工业化生产线和手工作坊的区别，前者讲求ROI，讲大规模下的效率；而后者则需要小而美，有那么一条街的人爱吃你们家的臭豆腐，路过愿意买，一天能炸100锅也就足够了。这两种条件下因为做事量级的不一样，方法是完全不同的。比如头条，就做到APP的开发像流水线一般，而小公司可能设计，交互，代码，产品可能都是同一个人。工业化因为效率的原因，一定会打败大部分小作坊，但是仍然有那些可爱的百年老店，不扩张，不加盟，不引入机器，像臭豆腐，糖油粑粑等一些地方小吃，人们吃的是这里面的文化，而不是工业化的健康和效率。

至于为什么要这么做，我想聊一个个人经历和体会来说明。

我在很多年前第一次接触搜索这项技术的时候，闹过一个很大的笑话。当时满脑子的数学建模思维，认为只要把公式列好了，计算的问题，应该都不大。比如，搜索无非就可以按照书上公式写的，就是个用内容的权威度乘以相关性的得分，排个序就好了。但是后来学习以后才发现，居然最开始是先用布尔模型去所谓“召回”可能相关的文档，然后再是粗排序，然后才是精排序，加展现控制，最后才是我们拿到的排序结果。

在召回这一层，竟然把好端端的查询Query变成了一个部分无序的词和短语的集合，然后用计算机最适合的查找算法迅速筛选出命中了查询相关词的文章。天哪，这样一来，语义理解怎么办？查询的很多同义表达怎么办？没有命中，但是就是查询问题的答案怎么办？

但是，一个检索系统动辄上亿的文档量，如果不先用布尔运算筛选到比如千量级，要拿着全网所有文章过一遍你的深度打分模型，那也太奢侈了吧。有再多的机器也撑不住你这样作啊。当然如果量子计算的效率远远更高的话除外，算法除了表达数学模型，另一个作用就是解决计算资源和需求之间的矛盾，尽可能在给定需求限制内最大化效果，而且它也是跟着资源和需求的规模不断变化的。

怎么样？检索系统里对文章的第一层过滤，也叫召回，是不是很像HR们筛选简历的过程？可能拿着学历和学校列表卡一刀就过去了？看起来，这其实是一个普世的解决大规模问题的思路，而并不是一家之言。有两个层面，一个是我们做一件有条件限制的复杂的事，往往追求的都是算完ROI以后相对的效率最高，理想化的最优解法根本没有用，那只适用于简单问题；具体到hr招聘简历粗筛策略这里，那就是，面对一个从一个大集合筛选出最后符合要求的排列的任务，当集合过大没法在短时间内全部用最精确却效率最低的算法全部遍历的时候，逐层用相对精度低但是效率更高的方法筛选，是通用的ROI最高的策略。

接下来我们就从召回排序的逻辑和复杂问题决策优化两个层面分别聊聊。

为啥要先召回后排序？

那这召回后排序背后到底是怎样的原理和智慧呢？先来看几个其他领域的例子。

举个小例子，在新人拍完婚纱照以后，有一个从比如500张照片中选最后100张放入相册的过程。如果你一开始就没照照片仔细地都看个1分钟，然后还要来回比较，可能几天都选不完，但是如果你把流程设计成，先粗筛，剔除那些明显不合格的200张左右；然后精选，在每个场景下再剔除2~3张，还剩个120张左右；最后再在每个场景内看如何组合放入相册的一页最佳，确定最后的100张。

回到检索系统这里，为什么也可以这样分层逐步筛选呢？我们的目标其实更多偏向准确率，而非召回率。假设对于某个查询，如果只有满意和不满意的区别，1亿文档中有1k个满意，用户最终只看首页的10条结果是否满意的话，那么召回阶段，用粗浅的办法召回的1k篇中，哪怕只有100篇，满意，最后在精排时候，能够从这1k篇中把满意的排进前10，就足够了。对用户而言，只要看到的部分都准确，对是否全部召回了，并没有那么关心，那是算法工程师的事。当然也可以一开始就拿这个精排算法去排1亿文档，可是最后对满意率而言没什么作用，但效率却是出奇地低了。

这也是为什么会有人专门能做SEO优化，并和搜索系统持续对抗了。因为你的代码对文档的理解足够粗浅，我就可以不做好文章质量，却只适应你的召回和排序公式，就像培养了一堆应试技巧，却没有真的掌握能力一样。

所以，从个人求职者的角度，做点表面文章，把简历搞漂亮了第一眼吸引人是绝对有利可图和无可厚非的，当然这是在不作假的前提下，否则就会有更大的风险需要承受。这也和女孩子打扮漂亮一点获得恋爱中的先手优势一模一样，男人得先用颜值召回才看得到后续内心世界的优秀啊。我一个创业的朋友告诉我，简历里那些逆着规律来，表面看不出优秀的，当然不否认特例被慧眼识珠，但是整体对你而言是要丢EV的，会被所谓不公平地淘汰，何必呢？

在真正招聘中，类似的是其实大公司需要的岗位数量就像用户会看的首屏一样有限，我只要这些人是准确的我需要的人就够了。假设100个，那么面对1万份简历，有500人合格的情况下，过学历这一把过到1000人的时候，这里面能有200人合格就挺好了，剩下的就交给面试官吧。这得给公司省多少时间啊！若是一开始就全部面试，来者不拒，这最后面出来的100人，可能和过滤一把并没多少差别，却多付出这么多成本，那又是何必呢？

和HR筛选简历类似的例子还有很多，比如是学校要派几个人去参加省里面的评选，自然也是老师召回一些，在拉到一起在候选人中间评比，总不可能把全省所有学生拉到一起评吧；一项比赛也是初赛，复赛，决赛这样安排，每个级别都有最低成绩要求，总不可能一开始全人类都一起起跑去看谁先跑完100米吧？什么，你居然说要这样才绝对公平？省省吧！

先召回，后排序，这样的思路在我后续的工作中就慢慢成为了做任何和“匹配”相关的事情的基本思路了。无论是前面的检索系统，或是简单地给视频打标签，也是先通过行为关联上可能有用的标签，再拿模型去算得分；而在语音识别中，也是先用ngram语言模型的得分算出几条基本路径以后，再用RNN模型去重打分；最近用热传导和物质扩散模型做了一把推荐，传导一步，直接对所有的用户算了相似度，直接把集群跑爆了。哎，还是犯了基本问题，明显地用用户匹配用户，那也得先召回可能相似的，才能去精细算相似度啊，恍然大悟以后，对用户和物品都进行了剪枝和筛选，才使得模型可以运行。算法工程师啊，核心就是在算力面对数据量有限的情况下，在各种限制下跳舞。

复杂问题的决策优化

hr晒简历的策略，除了表层的召回排序套路，还有什么更深的值得学习的方法论呢？

我常用三级火箭的设计作为比喻，来理解面对一个限制条件下，解决问题策略的决策问题。要获得脱离地球引力的速度，必须有足够的燃料来加速，而火箭的质量和燃料的效率就是加速的关键了。因为装载燃料的空仓本身有很大质量，因此对于加速而言是极为不利的。而燃料又有不同的等级，全用最高等级成本太高，都用低的又飞不上去。因此，理想看来，应该是先烧低等燃料，并且逐步脱去装载外壳，然后直到最后只剩下火箭母体，最高等级燃料耗尽，火箭进入轨道运行。实际上我们并不能一点点渐变地改变燃料等级和脱去装载装置，因此三级火箭的结构就是这一理想模型的离散化。虽然这里不是排序问题，但是也是在资源有限条件下去做到相对最优的思路。

当然，上面把人才分为粗浅的合格和不合格，文档分为满意和不满意了，自然还有层次的差别。但是显然，这些精度的损失是必须承受，而且硬性微乎其微的，完全可以把这个时间用到别的员工培训等更需要的安排上去。工业化必然是这样的思路，但是一些百年老店固执地不愿意改，长沙步行街的向群锅饺店常年排满了人，买不到，老板也固执地不打算开分店。人们还就喜欢这老店的固执，排队1小时也要点上一份。难道真的比外卖卖的香吗？我看未必，但是这等文化的力量下，人们是没有理智的，吃的就是这份情感。这样老板赚了最多的钱吗？应该没有，但是钱也买不了老板他乐意这么玩啊！

所以，当你面临一个环境复杂多变，有诸多未知信息的状况下，为了达成一个复杂的目标，我们必须仍然得有清晰地思路。前期做好信息收集和不同情况下可行解的划定，以及不同解下共同考虑的优势和劣势，分别赋予权重以后的最终每个情况节点下的续。如果存在决策时仍然无法确定的信息，那就得去以结果的EV收益以及对风险方差的偏好为目标制定真实策略了，如果面对的是一个竞争的博弈环境，这里甚至还要用混合策略。看山去，召回排序所面临的问题还是相对简单的，我们的生活中还有更多值得我们做决策优化的事需要精进。

有时候觉得，没有这么总结过，也不妨碍在自己的领域按照定式去做，也差不多用了类似的做法。但是思考就是有意思啊，把世界的各个领域的联系总结抽象出来，才是智慧啊，而且，万一哪天你需要进入一个新的领域，创造一个新的领域呢？这些通用的智慧，才是思路的由来。

最后，还想给大家提一个相关的问题，为什么大公司都喜欢用内推的简历呢？不妨顺着本文的分析思路想想，再看看还有什么别的分析角度。

我们是谁：

MatheMagician，中文“数学魔术师”，原指用数学设计魔术的魔术师和数学家。既取其用数学来变魔术的本义，也取像魔术一样玩数学的意思。文章内容涵盖互联网，计算机，统计，算法，NLP等前沿的数学及应用领域；也包括魔术思想，流程鉴赏等魔术内容；以及结合二者的数学魔术分享，还有一些思辨性的谈天说地的随笔。希望你能和我一起，既能感性思考又保持理性思维，享受人生乐趣。欢迎扫码关注和在文末或公众号留言与我交流！

扫描二维码

关注更多精彩

魔术的逻辑（三）——明明是假的，但为何奇迹依旧美妙？

扒一扒那些叫欧拉的定理们（十二）——经济学里的欧拉定理

Si Stebbins Stack中的数学与魔术（十一）——《Woody on Stebbins》作品赏析

袁亚湘院士上《开讲啦》变数学魔术啦！

如果道具不能检查，那就毁了它！（二）——一般道具篇

点击阅读原文，往期精彩不错过！

MatheMagician

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
为什么大公司都粗暴地用学历筛简历？他们不怕漏掉顶级人才吗？

早点关注我，精彩不迷路！有段时间，我常听到一些朋友抱怨，在一些大厂的热门岗位的招聘中，投递简历往往就是石沉大海，杳无音讯，连面试的机会都没有。而据了解，其实这样结果的原因很简单，那就是在简...
复制链接

扫一扫