7个秘诀,带你由数据分析师成长为数据科学家

全文共4047字,预计学习时长8分钟

通往数据科学之路 (Aleksandr Barsukov发布于 Unsplash)

数据科学的热浪席卷大多数行业,如《哈佛商业评论》所述,数据科学家已成为21世纪最性感的工作。

虽然市场对经验丰富的数据科学家的需求越来越大,但对这份工作的描述大都很模糊。此外,很多招聘经理对数据科学和数据分析或数据工程的定义都很宽泛。行业标准的缺乏让许多想要转行至数据科学的专业人士十分困扰。

了解有关人工智能和机器学习的信息非常关键,但是没有任何指导,人们很难知道该从哪里下手。

本文的作者是Zoopla的一名数据科学家,他将详细分享自己从分析师到数据科学的职业生涯中学到的经验。

分享就是关心!( https://imgur.com/gallery/oJSx1YR)

打好扎实的数学基础

大多数机器学习算法都是建立在多变量微积分、线性代数和非线性代数的基础上的。熟练的数据科学家能够从数学层面改变计算机程序,从而真正推动模型性能提高。掌握数学技能很重要,尤其是统计学和线性代数。具备学习和理解机器学习技术的能力是成为一名数据科学家的必要条件。无论读的是心理学、数学、博士还是在线课程都不重要,学会数学就好。

目前有很多数据科学家拥有博士学位,但这并不是铁律。

秘诀1:关注自身的能力而非背景

作为一名数据科学家,经常要将困难、开放、定义模糊的问题一步步分解。这是读硕士的3到6年间不断培养的技能。但这种技能也可以从工作中锻炼。

教机器前先自学

数据分析师报告、总结并解释过去和现在的信息,以为业务服务。这与数据科学家截然不同。数据科学家负责总结数据,从而预测未来或作出决策。他们的核心任务是训练、测试和优化机器学习算法,因此技能也集中在机器学习建模上。

初学者可以在各媒体平台上浏览博客文章,找到可以指导解决特定问题的方法。以下是一些有用的文章:

· 模式识别与机器学习——Bishop(被称为机器学习圣经)

传送门:https://cds.cern.ch/record/998831/files/9780387310732_TOC.pdf

· 机器学习课程——Hal Daumé III

传送门../../../Documents/WeChat Files/Tristaphy/FileStorage/File/2019-07/机器学习课程

 

· 神经网络与深度学习——Michael Nielsen

 

传送门:http://neuralnetworksanddeeplearning.com/

理论和繁杂的方程式有时会让人不知所措,但不应该是让人离开这个领域的原因。你可以边阅读边写代码。例如,试着从头构建一个单层感知器(一种最简单的一种神经网络)来完全理解书中读到的内容。

学习三连:读书、上课、写代码

秘诀2:应用所学的科学方法

网上也有许多课程在理论和实践上各有偏重,涵盖了机器学习的基本原理。推荐一些实用的课程:

· Coursera 机器学习课程由该领域的领军人物Andrew Ng讲授,涵盖一些基础知识。用Python而不是Octave/Matlab来做作业会更好,因为如果有很强的Python技能,会在就业市场上处于更有利的位置。

传送门:https://www.coursera.org/learn/machine-learning

· Fast.ai课程由机器学习名人杰里米·霍华德(Jeremy Howard)和雷切尔·托马斯(Rachel Thomas)博士创建。课程以启发式教学为理念,更侧重实际应用。

传送门:https://www.fast.ai/

面向程序员的机器学习入门:http://course18.fast.ai/ml

面向程序员的实用深度学习:http://course.fast.ai/

面向程序员的前沿深度学习:http://course18.fast.ai/part2.html

· 斯坦福大学(Stanford university)分享了一系列人工智能课程材料。比如:

cs224n用于视觉识别的卷积神经网络:http://web.stanford.edu/class/cs224n

cs231n用于深度学习的自然语言处理:http://cs231n.stanford.edu/

这些课程的目标既不是记住公式和推导,也不是逐页阅读书和讲稿。学习的目标应该是掌握大多数模型和算法以不同方式处理的基本概念。比如,神经网络中的drop-out层、消失梯度、信号/噪声关系。获得将问题与基本原理联系起来的能力,将使你成为一名优秀的应用数据科学家,而这正是许多雇主想要的。

科学研究

秘诀3:为业务设置和问题选择正确方法

数据科学家的真正技能是,知道手头的业务问题需要什么样的技术和机器学习方法。

这个领域过去的十年里蓬勃发展。作为一名数据科学专业人士,不断学习新知识是成功的必要条件。强烈建议阅读已发表的学术论文,还有不同科技公司和该领域关键人物的机器学习/人工智能方面的博客。需要解决没有提供即时方案的抽象问题时,所学会派上用场。通过研究现有情况找到正确的解决方案,工作就完成了80%。

安德烈·卡帕西(Andrej Karpathy)在斯坦福大学cs231n课程上说得很好,“不要逞英雄”。商业世界期望人们快速交付(失败),因此,如果可能的话,不要重新发明轮子,而应该站在巨人的肩膀上。

“如果说我看得更远,那是因为我站在巨人的肩膀上”——艾萨克·牛顿(1775)

(https://me.me/i/3487477)

提高编程技能

数据分析师用数据来帮助企业做出明智决策。他们精通SQL、Excel和Tableau或Power BI等可视化工具。而数据科学家需要构建强大的模型来推断和解决大规模业务问题,因此需要提升编程技能。学习编程永远不会太晚。

Python正成为世界上最流行的编程语言,并拥有无数经过良好测试且不断更新的数据科学库。所以大多数数据科学团队都在寻找会Python的人。所以,如果不懂Python,那就报名参加网络课程学习一些基础知识。不要忽略PEP8之类的格式指南,耐心学习,因为多实践才会有期望的成果。此外,学习如何使用Jupyter对加快工作流程和数据/模型探索十分关键。

秘诀4:一直持续不断练习,让编程技能更快更好更强

会编程有魔法

参加黑客马拉松、kaggle竞赛、进行个人编码项目都是提高编程技能的方式。从分析中找到并把握住数据科学机会有助于在当前工作中获得经验。学习预测和异常检测的算法也有助于推动从数据分析师发展为数据科学家。本文作者在这个行业的第一个数据科学项目是设计自动完成某电商网站搜索查询的算法。这个项目的灵感就来自他还在做初级分析师时报告的关于搜索和购物车的一些有趣的分析。

掌握软件工程技能

如果想让自己的模型有生产的可能,软件工程技能非常必要。出于方法和法律原因,培养一种旨在通过自动化重现项目和结果的编码态度至关重要。在拥有成熟数据科学文化的公司中,有的人创建原型,有的人编写生产代码,还有的人负责部署。实际上,无论公司规模大小,都不太可能获得所有需要的支持,仅仅知道统计数据不足以交付数据科学项目。

数据科学家程序列表

秘诀5:尽早将自己的项目步骤自动化

因此,初级数据科学愿望清单可能是这样的:

· 可重现数据管道(如在spark和python中):是否有必须重现以前做过的分析的经历?创建逻辑数据流(如原始(不可变数据)->中间(正在进行的工作)->处理(最终特性))和使用Makefile将节省自己和同事的时间。我和我的团队都是cookiecutter的忠实粉丝,它提供了像这样的逻辑项目结构。

· 培训和评分的端到端自动化:模型大多数时候是鲜活的有机体,需要新的预测,并且数据可能会发生变化,所以要再训练、评分和完善。然后必须将模型参数、秘密和随机种子放入配置文件中,将DS项目分解为不同的元素并应用modularity。如创建可在训练和评分时使用的共享特性库。

· 单位测试范围:人人都想要无忧无虑的睡眠和不受打扰的假期。所以为了确保稳健性,为项目编写测试是很重要的。

· 构建API提供预测:为了表达想法和模型需要证明概念,这时通常需要REST API。如果不想使用Python之外的其他语言,那么可以使用带有Swagger UI的Flask和Flasgger。Swagger对于记录并可视化基于REST的网络服务非常有用。

· ECS部署或生产环境的数据科学解决方案的容器化:Docker可以隔离项目及其依赖项,在环境之间移动模型,并且每次以完全相同的方式运行代码以达到100%的可重现性。这将有助于与DevOps和工程师的协作,这样他们就能使用打包好的容器作为黑盒,无需了解数据科学。

将科学翻译成领域内语言

通过在数据中寻找代理或者让它成为机器学习中的潜在因素,研究数据的主题专家可以克服如业务失踪或定义KPI等障碍。数据科学通常会造成业务中断,因此需要说服高层领导以获得适当的支持和资源。

有人说,让业务中的所有利益相关者都能理解算法是一种艺术。因而需要不断学习如何阐释建立的算法,并向他人展示其重要性。正如毕马威(KPMG)现任数据科学与工程主管丽贝卡•波普(Rebecca Pope)在“硅谷女性圆桌会议”(Women of Silicon Roundabout)上强调的,“永远记住,你(而非你的代码)是有影响力的。人们不买算法,他们相信你和你的能力。”因此,要关注并花时间培养将数学转换成垂直行业的视觉叙事的能力。

秘诀6:用垂直行业术语来沟通工作

没人懂我……一名数据科学家正在解释深度学习

(https://memegenerator.net/img/instances/63241330.jpg)

正是成长的时机

从事新兴职业虽然艰难,但更令人兴奋。找到一个有助于成长的团队,拥有像海绵一样的头脑,将会加速通往成功的旅程。理想情况下,你的上级会理解你的日常工作和想要达到的目标。不然也可从团队或公司之外寻找所需的额外指导,如求助大学校友或教授,或者网上友好的数据科学家。聚会和会议也可能很有启发性,有助于找到良师益友。

秘诀7:记住,没有教科书或课程比导师更重要

请用考利昂老头子的声音念

综上所述,要想在数据科学领域开始职业生涯,应该关注的技能包括统计学、多变量微积分和线性代数、机器学习、编程技能、软件工程和可视化技能。

数据科学维恩图 绘制:Steven Geringer Raleigh, NC.

留言 点赞 关注

我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值