关于数据科学家面试的那些事儿

数据科学是技术领域中最不明确的领域之一,但是数据科学行业的人才需求确实空前的,无论是应聘者还是招聘人员,这篇文章可能会给你下一次面试带来启发!

招聘人员所要做的事

面试很困难,数据科学更是如此。每个公司对数据科学都有不同的看法。 更糟糕的是,许多人在招聘过程中或之后才发现他们想要什么。


作为招聘人员的责任是尽可能清楚地说明工作描述:需要的是数据工程师,可视化专家,数据分析师,算法工程师还是机器学习研究员? 知道你想要什么,并及早过滤。

这个工作的不确定性将会遗漏最好的候选人——除非你是Google 等。他们会想知道已经建立了什么工具,他们的工作的投资回报率如何衡量,在团队中有谁……

本文涉及“机器学习”数据科学家。

让数据科学家谈论他们所知道的

数据科学家有非常不同的背景。每一次面试都不可能做好全部的准备:他们是否应该学习“标准”计算机科学?统计?关于贝叶斯定理的?深度学习?机器学习?你公司的领域?

优秀的求职者有许多类别的基础知识,善于动手实践,并在一些领域拥有丰富的知识。如果你想进行技术讨论的话,这有一些例子:

问题类型:回归/分类/聚类/异常检测…
数据类型:计算机视觉/时间序列/ NLP /推荐系统…
复杂数据:降维,流形学习
观点:深度学习/贝叶斯机器学习/图形模型…
专长:行业洞察/优化/数值方法…

我的观点是“开放”1-1面试比办公室笔试要好。许多公司给出关键数据集,并要求分析。它可以帮助看出谁是务实的!对于有经验的求职者可以提问很多,问关于他们的项目,或在Kaggle / GitHub上的表现。

具有行业经验的求职者应该有失败的项目。 这些教训是必不可少的。

数据科学面试专题

然而,许多话题在数据科学面试中似乎是可争论的对象。 记住,目的是促进讨论:很少有一个唯一正确的答案!

机器学习与模型工程

你目前正在讨论的任务有哪些算法?

它们什么时候完成,足够完善,完善的基准,等等。

它们是如何工作的?是如何测量的?它们的参数拟合是如何优化的?

你如何评价一个模型的性能?根据上下文,这可以导致关于假正/假负、准确性、召回、AUC、提升等的讨论。这应该如何决定?

你如何选择最终的模型?性能?训练时间?评估速度?复杂性?

了解交叉验证和偏差/方差是至关重要的。

你如何做变量和模型选择? 你可以考虑信息化指标、正则化、稀疏性诱导方法,如L1正则化、向前/向后搜索...

数据工程

你如何设计X?
你会对任务X做什么预处理?
不平衡数据呢?丢失的数据?异常值?
以及高基数的分类变量?
如何处理大数据? 考虑在线学习、映射/化简、(小批量)随机梯度下降...
你知道什么工具/语言可以实现X? 你使用哪些?为什么?
你使用哪些可视化工具? 为什么?

作出决定?

这总是放手一搏的。你不可能仅在短短几小时内可靠地评估求职者过去项目中的参与情况,他们的专业知识,甚至你与他们的合作情况。

不要害怕选择具有不同背景和经验水平的求职者。 数据科学团队需要这样的人才。 如果你正在开始这样一个团队,就要依靠有专业知识的人:这是避免浪费时间的唯一办法。

 Bingdata优网助帮汇聚多平台采集的海量数据,通过大数据技术的分析及预测能力为企业提供智能化的数据分析、运营优化、投放决策、精准营销、竞品分析等整合营销服务。

北京优网助帮信息技术有限公司(简称优网助帮)是以大数据为基础,并智能应用于整合营销的大数据公司,隶属于亨通集团。Bingdata是其旗下品牌。优网助帮团队主要来自阿里、腾讯、百度、金山、搜狐及移动、电信、联通、华为、爱立信等著名企业的技术大咖,兼有互联网与通信运营商两种基因,为大数据的算法分析提供强大的技术支撑。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值