抓取近千分领英资料后,我们发现了数据科学家的秘密……

640?wx_fmt=jpeg

全文共4090字,预计学习时长8分钟

640?wx_fmt=png

获取数据,以洞悉自己想成为的样子 图片来源:David S.A/Pixabay

一个数据科学家是不是非得成为一个Kaggler大师?神经网络究竟该用于图像识别还是自然语言处理,还是两者都不?既然Kubernetes只是将模型投入生产,那该如何学习部署模型呢?Hadoop究竟又是怎么一回事?

很多数据科学新手都对这些问题感到迷惑。其实对于初学者而言,最高效的策略是先找一份与数据相关的职业,在工作中磨炼相关技能。 

本文并不是一篇自吹自擂般空谈数据科学家应具备何等顶尖技能的技术帖,而是那些成功转型为数据科学家的真实数据。

640?wx_fmt=jpeg

与数据科学家有关的数据偏误

虽然关于何为数据科学家这个论题,已有许多公开发表的大规模研究可供参阅,但这些研究数据存在以下问题:

· 自我选择偏误。由于这些调查往往由某种机构组织开展,且具有高度自愿性,因此某一部分受访者的样本占比可能过高。例如,Kaggle数据科学调查就存在这一问题,即TensorFlow实践者占样本量的主导地位,这可能是因为这一部分人参与调查的热情更为高涨,但这便导致研究结果不能反映出数据科学的真实行情。 

· 受访者偏误。由于受访者高度自愿,且缺乏针对受访者的反馈(即受访者无须为自己的表述失实负责),单个受访者可能会夸大自己的头衔、教育水平或其他数据。

· 市场代表性。本文的主要目的是找到目标市场(新加坡)成功应聘为数据科学家的人员资料。但据目前所见,调查受访对象几乎全是数据科学领域的“有志之士”(主要是学生),关于新加坡数据科学家的具体数据是少之又少。

领英(LinkedIn)是本文的数据来源。尽管仍存在选择偏误(领英的算法并不能带来真正意义上的随机样本),但它已被求职者及各大招聘单位广泛采用,并作为减少受访者偏误提高资料真实性的核审手段。领英的个人资料,可以说,是受制于就业市场的实际需要。

此外,在领英查询资料时可通过搜索词指定所查询资料的地理位置,就本文分析需要,可将其锁定于新加坡。现在,只剩下一个问题,也就是获取资料本身是否合法。

640?wx_fmt=jpeg

抓取领英数据

通过搜索词“数据科学家”与“新加坡”,抓取领英People界面上的全部信息。其中,有用的数据只有三类:当前职务(工作头衔与雇主名),教育背景(距今最近的就读院校及所读专业)与过往履历(职务,企业类型与累计工作年限)。只提取这三个信息既能节省编写与调试爬虫代码的时间,又能最大限度地减少违反领英服务协定的潜在责任。

将涉及业余爱好者、学生与信息不足的资料剔除后,手头上共有869份数据科学家的资料。现在可以开始研究下个问题——“这些现任数据科学家身上有何共性?”

发现1: 均有研究生学历

这是所有数据中最受瞩目的一点。目前,超过73%的现任数据科学家拥有学士以上学历(不包括学士学历)。多数为研究生学历 (44%) ,博士学历人群 (29%) 高于学士学历人群 (21%) 。据悉,只有6%的数据科学家凭借MOOC,训练营或其他非传统认证方式作为自己的主要资格证明。这表明未来雇主相信,高等学位能反映数据科学家这一岗位所需的复杂要求。此外,还应注意的是,数据科学训练营或其他非传统资格认证计划也具有同等效力。

640?wx_fmt=png

新就任数据科学家的教育资历 数据来源:领英数据样本

发现2:商业分析异军突起,和计算机科学与工程学同属于行业龙头专业

大众早将计算机科学、数学与统计学三巨头视为构建数据科学领域的基石,这在一定程度上也得到数据的支持。不过,也不尽然。

迄今为止,在单学科领域,计算机科学专业占全专业的14%,雄踞榜首。工程学作为一个多学科领域,包含化学工程、电子电气工程与所谓的知识工程总共占全专业的22%。数学和统计学也是囊括万千,包括应用数学,数学物理,统计学与应用概率,但这些学科似乎在数据科学领域分量没有那么大,总占比仅为12%。

然而,商业分析及其他分析专业异军突起,共同占比15%。实际上,在自称最高学历为硕士的数据科学家的所学专业中,商业分析是排名第一的顶尖专业。 

其他排名较高的专业为物理学 (3.5%) 和信息技术(2.2%) 。由下图可知,虽然与计算机与工程相关的专业对于数据科学家而言重要性仍是与日俱增,但数学和统计学在面向商业的分析学(及其变体)这一新兴学科面前显得黯然失色。不过,据该图所示,数据科学家所读专业中还有许多其他学科(即长尾),这表明当代数据科学家需要更多元的学科储备与专业素养。

640?wx_fmt=png

数据科学家所学的顶尖专业 数据来源:领英数据样本

发现3:现任数据科学家往往正处于职业生涯中期

据样本数据可知,一个数据科学家的工作经验往往是4到6年,具体视其最高学历而定。这一点可能看上去显而易见,但值得重申的是,受许多行业入门经验帖的影响,人们往往有这样的印象,即在完成一系列史诗级难度的MOOC课程后,大学生刚毕业便出师告捷,成为一名数据科学家,然而这并不符合事实。和绝大多数空缺职位类似,按照常理能成功应聘的更可能是具有一定工作经验的人。

另一个有趣的事实是,所有自称通过非传统认定计划获得资格认证的数据科学家中,没有一个是新员工,他们都有至少一年的工作经验。

640?wx_fmt=png

数据科学家累计工作年限 数据来源:领英数据样本

发现4:大多数数据科学家职务都是新兴岗位

发现4可与发现3相互印证,大多数 (76%) 数据科学家在现任岗位上任期不满两年,其中多数 (42%) 任职不满一年。这表明虽然大多数的数据科学家岗位是近来设立的,但这些应聘成功者都有职场经验。

640?wx_fmt=png

数据科学家目前岗位任期,0表示不满一年 数据来源:领英数据样本

发现5:研究员、软件工程师、分析师、数据科学实习生大受欢迎,曾是数据科学家?再好不过! 

获悉数据科学家在就任前的工作履历是笔者的核心目的。不出所料地是(鉴于样本中研究生学历持有者占主体地位),他们中很大一部分 (11%) 曾任科学家或研究人员(包括研究助理与研究员)。同样占比11%曾任软件工程师,包括开发人员与解决问题架构师。另一部分数据科学家曾任不同类型的分析师 (11%) ,包括数据分析师与系统分析师。

有趣的是,实习生与管培生 (11%) 明显也可在未来成为成熟老练的数据科学家,他们通常在数据科学或分析岗位进行实习。其他排行靠前的职务包括顾问 (5%),各种管理职务 (5%) 与数据科学教师 (5%)。

对招聘数据科学家的企业而言,没有什么比曾任数据科学家的应聘者更具诱惑力。样本数据中,自称曾任数据科学家该职位者占比高达28%。并且,这一任职优势还在不断扩大——例如,29%的雇员称自己在数据科学家这一岗位任职不满一年(包括一年),相比之下,自称在这一岗位任职3到4年的雇员仅占12%。

值得注意的是,统计师和精算师这一职业在未来竞争数据科学家这一职位的大军中居于末流。

640?wx_fmt=png

数据科学家过往任职,以当前职位任期来分列,0表示不满一年 数据来源:领英数据样本

发现6:半数数据科学家岗位来自于非技术公司

尽管出于资金充裕的缘故,成熟的技术公司(如谷歌或亚马逊)往往是不少数据科学家梦寐以求的求职地,但值得注意的是,样本中接近半数 (49%) 的数据科学家来自于非直接生产技术产品的公司。这些公司及机构往往涉及金融保险 (11%) ,咨询顾问 (9%) ,政府机关 (5%) ,制造 (5%) 和学术领域 (2.4%)  。

在技术公司,最具代表性的行业包括交通运输(8%,部分归功于新加坡的打车出行APP——Grab) ,企业(8%,包括IBM,SAP与微软),电子商务 (5%) ,还有财务 (5%) 。在这里, 在这里,像DBS银行这样的金融机构与像Refinitiv这样的金融科技公司是存在区别的,前者招聘数据科学家,而后者通过数据科学来为相关机构创造技术产品。

有一类规模较大的技术公司,在这里称之为AI & ML (6.5%) 。这既包括像DataRobot这样提供自动化机器学习产品的跟踪记录的公司,也包括像 Amaris.AI这样的新机构。

如果非技术公司与技术公司之间的差异的确与其他某处所提出的A型B型数据科学家特征完全吻合的话,那真会方便不少,因为这将表明就业市场(至少在新加坡)将给这两种类型的职业提供同等的机会。然而,这仍是个有趣有用且有待验证的假说。

640?wx_fmt=png

数据科学家雇主单位类型 数据来源:领英数据样本

640?wx_fmt=jpeg

结论:他山之石,如何攻玉?

如果你不愿在鱼龙混杂的博客帖子中找不到自己所需的数据技巧而惶惑不安,而是想认认真真地找一份数据科学家的工作,那这篇文章会助你了解成功的应聘者究竟是什么样的人。

最可能的人选有着如下特征:持有计算机科学、工程学、数学或分析学的硕士或博士学位;有相关领域4到6年的工作经验,曾有过研究员、软件工程师、分析师或数据科学实习经历的人。

不过,不要以为绝大多数的数据科学家都有上述特征或履历,因为以上仅代表各种可能导致应聘成功概率因素的集合体(彼此互相关联并不独立)。正如本文及其他文献所述,数据科学家的背景极具多样性,绝不是几种诸如软件工程师这些职务所能概括的。不过,上述资料勾勒出的形象的确更受雇主青睐,并且应聘者简历“脱颖而出”的可能性也可能与上述形象的吻合程度有所关联。

最后,值得注意的是,虽然这些数据并未言明在非传统认证(如MOOCs与训练营)中所学技能的“必要性”,但体现了这些技能在成功应聘方面不具有“充分性”。

相比之下,研究生学历是衡量数据科学家前景的更好指标。这并不是说非传统资质认证无关紧要;毕竟数据科学正高速发展, 很多重要的算法与技巧并不在传统大学的学业大纲中,但这只能表明所习得的具体技巧可能会满足某种需要,而不能保证拿到数据科学家这个饭碗。

当今,很多数据科学专业课程如雨后春笋般不断涌现,这些课程似乎是为了利用那些“有志之士”的不安全感,不断鼓吹只要学会这一系列特定的技巧,你就能“更上一层楼”。然而,阅读本文并对真正的数据科学家所具备的特征有所了解后,也许就会有所顿悟,从现实出发,就当下各种聒噪喧嚣,做出更加冷酷犀利的思考。

640?wx_fmt=jpeg

留言 点赞 发个朋友圈

我们一起分享AI学习与发展的干货

编译组:董宇阳、温媛

相关链接:

https://towardsdatascience.com/i-wasnt-getting-hired-as-a-data-scientist-so-i-sought-data-on-who-is-c59afd7d56f5

如需转载,请后台留言,遵守转载规范

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017 论文集:34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你

640?wx_fmt=gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值