从分析师到科学家,这份成长秘籍请收好!

552 篇文章 2 订阅

全文共4348字,预计学习时长9分钟

尽管社会对有丰富经验的数据科学家的需求越来越大,但是大多时候这份职业的描述仍然模糊不清,招聘经理对数据科学和数据分析或工程之间界限的划定也仍然是宽泛的。

数据科学之路(图自Unsplash,亚历山大·巴尔苏科夫)

正如《哈佛商业评论》所言,毋庸置疑,数据科学的热浪已经席卷了大多数行业,这使得数据科学家成为21世纪最火爆的职业。尽管对有丰富经验的数据科学家的需求越来越大,但是大多时候对这份职业的描述仍然模糊不清。而且招聘经理对数据科学和数据分析或工程之间界限的划定仍是宽泛的。实体工业规范的缺失使许多渴望转变为数据科学角色的专业人士感到困惑。

在坚实的数学基础上站稳脚跟

大多机器学习算法建立在多元微积分和线性与非线性代数学上。技艺精湛的数据科学家能够在数学层面上改变计算机程序,从而在真正意义上推动模型性能的改进。拥有数学技能很重要,尤其是统计学和线性代数学。拥有学习理解机器学习技术的能力是成为数据科学家的必要条件。不论是从心理学或数学学位、博士学位还是在线课程中学到这些东西,这都不重要。

一般来说,科学、技术、工程及数学领域 (STEM) 的学士学位已经提供了机器学习和数据科学技术在数学方面所需知识的基础。许多有抱负的数据科学家因受从事数据科学领域工作必须首先拥有博士学位这一错误观念的影响而止步。目前,有很多数据科学家拥有博士学位,但这不是一条死规定。

秘诀1:关注于自己的能力而非背景。

作为一个数据科学家,常常要将困难的、无穷尽的且定义不妥的问题拆分为小碎片。这是研究生学习的3到6年间所训练的技能。

在教会机器前先自我学习

一位数据分析师要报告、总结和解释过去的和现存的信息以使其存在商业价值。这一点和数据科学家大不相同,数据科学家的作用是以某种方式总结数据,使之能够对未来或既定决策作出预测。数据科学家的核心任务是训练、测试和优化机器学习算法,所以其技能在机器学习建模方面至关重要。

许多发表在媒体和其他平台上的博文对起步者来说是完美的,能够在你也许想要把握的具体问题上指导你。另外,以下内容也有帮助:

· 毕晓普——《模式识别与机器学习》(许多人将其称作机器学习圣经)

https://cds.cern.ch/record/998831/files/9780387310732_TOC.pdf

· 哈尔·达乌姆——《机器学习教程》

http://ciml.info/

· 迈克尔·尼尔森——《神经网络与深度学习》

http://neuralnetworksanddeeplearning.com/

理论和巨大的方程有时会压得你喘不过气,但这不该将你拒之门外。对我奏效的一个方法是编码的同时进行阅读。比如,尝试创建一个单层感知器(神经网络最简单的一类),从零开始到完全理解所读的内容。

成套学习:书、课程和代码

秘诀2:将所学的科学方法论应用起来。

有大量有不同着重点的在线课程和专家,这些理论和实践涵盖了机器学习的基础:

· 这一行业领军人物吴恩达的 Coursera 《机器学习教程》(https://www.coursera.org/learn/machine-learning)。这一课程涵盖了一些基础知识。相比 Octave/Matlab,尝试python中的任务更有意义,因为如果拥有更强的 Python 技能,你会在就业市场中获得更好位置。

· 《人工智能速成课》(https://www.fast.ai/)(《给编码员的机器学习介绍》(http://course18.fast.ai/ml)、《给编码员的深度学习实操》、《给编码员的最新深度学习》),带有极具感染力的心理学教程以及更多实际的重点,由机器学习名家杰里米·霍华德和蕾切尔·托马斯出品。

· 斯坦福大学分享了一系列人工智能课程资料。比如cs224n 《为视觉识别建立卷积神经网络》以及cs231n 《以深度学习进行自然语言处理》。

此处的目的既不在于记住公式和推导方法,也不在于阅读观看每一页书、每一节课。你应该致力于掌握以不同方式表述的大多模型和算法的基本概念,例如,神经网络中的漏码层、梯度消失、信号/噪声的关系。掌握将问题和基本概念联系起来的能力会使你成为一个受许多雇主欢迎的优秀数据科学家。

进行科学研究

秘诀3:为业务开展和问题解决选择正确的方法论。

数据科学家的真本事是知道应对即将出现的业务问题需要什么技术和机器学习的方法论。在过去的十年间这一领域蓬勃发展,对知识的持续渴望是作为数据科学专家闪光的必然要求。强烈建议读者去阅读不同科技公司和行业领军人物出版的学术文章和机器学习/人工智能博文。当需要为没有直接解决方案的抽象问题解释提供解决方案的时候,对这类文章的阅读就会起作用。通过研究已有解决方案寻找正确的解决方案,是这一职业80%的工作。安德烈·卡帕斯在斯坦福cs231n课程上说得好:“不要逞英雄。”商业世界希望你能够迅速交付(或放弃),因此如果有可能你不应该白费力气做重复的事,而是应该站在巨人的肩膀上。

 

“如果说我比别人看得更远,那是因为我站在巨人的肩膀上。”艾萨克·牛顿(1675)

图源https://me.me/i/3487477

用上编程技能

数据分析师以某种方式使用数据,使之能够帮助企业做出明智的决定,包括结构化查询语言、Excel以及Tableau 或 Power BI等可视化工具的使用专家。另一方面,数据科学家需要建立健全的模型以大规模推断和解决商业问题。因此,他们有必要增强自己的编程技能。

练习Python形式的编程很重要。Python已成为世界上最受欢迎的译码语言,而且拥有无数已通过测试并不断更新的数据科学库。不出所料,大多数据科学团队都在寻找 Python 使用者。所以如果你还不了解Python,报名一个在线课程,学一些能让你前行的基础知识。不要忽视像PEP8 这样的样式导引,并且从一开始实践的时候就要保持耐心,这样就会得到令人满意的结果。另外,学习如何使用Jupyter 是更快的工作流和数据/模型探究的关键。

秘诀4:为了拥有更好更快的编程技能不断练习。

因为编程赋予你魔法能量

参加黑客马拉松,参与数据科学类竞赛,参与个人编码项目是增强编程能力的不同途径。发现并抓住分析结果中产生的数据科学的机会是在目前角色中获得经历的一种方式。为预测和异常检测进行算法是另外可以承接的工作项目,甚至可以当作作为分析师个人提高的一部分。

掌握软件工程技能

当希望自己的模型能有产出曙光的时候,具备软件工程技能就会很有必要。出于方法论和法律原因,培养以通过自动化实现项目和结果再产出为目标的编码态度至关重要。在一个有着成熟数据科学文化的公司,也许一些人在创建原型,一些人在编写产品代码,另一些人在部署代码。实际上,不论公司规模大小,都不太可能获得全部要求的东西,而且对提交一个数据科学项目来说,仅仅了解统计学是远远不够的。

秘诀5:在项目中尽早实现步骤自动化。

因此,初始数据科学桶列表如下:

· 可再生数据管道(例如,在 spark 和python中):你是否曾经再次生成了一个之前做过的分析?创建逻辑数据流(原始(不可变数据 -> 中介(正在进行的工作) -> 已处理(最终性能)),使用 Makefiles 会给你和你的同事们节约很多时间。

· 端到端的训练及评估自动化:模型在大多时候都是一个活体,新的预测需要产生,数据需要转变。这意味着再训练、评估和优化。将模型参数、秘密和随机种子放入配置文件,将数据集项目拆解成不同元素,以及应用 modularitye.g 创建再训练和评估期间都可以使用的共享性能库,是有必要的。

· 单元测试覆盖:你肯定希望能有一个无忧无虑的美梦和不受打扰的假期。那么,为了确保稳健性,给自己的项目编写测试就尤为重要。

· 建立应用程序接口提供预测:为了传达自己的想法和模型,需要具有相关概念的证据,并且在很多情况下它与表述性状态转移应用程序接口等同。如果使用 Python 以外的另一种语言不会对你产生干扰,也可以使用带有Swagger UI 的 Flask 和 Flasgger。对文件编制和表述性状态转移类网页服务器来说, Sawgger 会很有用。

· 为环境控制系统的部署或生产环境集装箱化数据科学解决方案:Docker 允许用户孤立项目并分离其依赖关系,在环境之间移动模型并以完全相同的方式运行代码实现100%再生产。这会有助于你和开发运维人员与工程师之间的合作。因为他们可以在无需了解数据科学的情况下将你的容器用作黑盒。

数据科学家变成列表中的部分勾选图标

将科学翻译为领域语言

作为数据处理人员和主题专家,你可以通过机器学习所学的,寻找数据的代理或者让它成为一个潜在因素,来克服一些障碍,比如业务缺失和关键业绩指标认定。数据科学通常会给业务带来破坏,其结果就是需要将自己的想法传递给上级领导以获得一定的支持和资源。有些人可能会说,让所有企业的股东理解算法是一门艺术。为了向他人展示其重要性,学会如何解释自己所创建的内容是我不断反复学习的东西。正如毕马威现任数据科学和工程主管丽贝卡·蒲波在硅谷女人会议上所强调的:“请时刻记住,具有影响力的是你(不是你的代码),人们不买算法,他们是信任你和你的能力。”因此,请确保将关注点和时间投放在把数学转译成针对垂直行业的视觉叙事上。

秘诀6:用来自垂直行业的专业术语谈论工作。

正在解释深度学习的数据科学家(图源https://memegenerator.net/img/instances/63241330.jpg)

成长时期

在一个新成型的专业领域工作,相比困难,更多的是兴奋。寻找一个能让你成长的团队,持有海绵般的头脑对会加快你成功的步伐。理想情况下,主管会明白你每日的工作,以及你要到达的目标。否则,就要在团队或者公司之外寻找你可能需要的额外指导,比如校友或者大学教授,亦或人际网中一位友好的数据科学家。见面会或会议也可以使人受到启发,有助于你完成这项任务。

秘诀7:请记住,没有课本或课程会和导师指导一样重要。

用唐·柯里昂的声音读出来

总结来说,为了从事数据科学领域的工作,你应该关注的技能是统计学、多元微积分和线性代数、机器学习、编程技能、软件工程技能以及可视化技能。

斯蒂芬·格林格·雷恩的数据科学韦恩图解

留言 点赞 关注

我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值