「数据科学职业成长系列」1.什么是数据科学？

最新推荐文章于 2024-09-20 21:47:09 发布

数据与智能

最新推荐文章于 2024-09-20 21:47:09 发布

阅读量543

点赞数

文章标签：大数据编程语言 python 机器学习人工智能

本文链接：https://blog.csdn.net/qq_43045873/article/details/114504878

版权

来源 | 「Build a Career in Data Science」

作者 | Emily Robinson and Jacqueline Nolis

译者 | ztongjoyce

校对 | gongyouliu

编辑 | auroral-L

全文共12350字，预计阅读时间50分钟。

1.什么是数据科学？

1.1什么是数据科学？

1.1.1数学/统计学

1.1.2数据库/编程

1.1.3业务理解

1.2不同类型的数据科学工作

1.2.1分析

1.2.2机器学习

1.2.3决策科学

1.2.4相关工作

1.3选择你的道路

1.4访问Airbnb的数据科学家Robert Chang

❤本章总结

本章涵盖了：

l 数据科学的三个主要方面

l 不同类型的数据科学工作

“21世纪最性感的工作。”“美国最好的工作。”有很多类似的内容来评价数据科学。可是在2008年之前，“数据科学家”这个头衔甚至都不存在。如今的这个岗位不仅雇主招不到人、并且求职者们还为之疯狂竞争。这种热潮的存在是合理的：因为数据科学是一个飞速发展的领域，在2019年美国基本工资排名中，它的薪资数超过10万美元(http://mng.bz/XpMp)。在一家优秀的公司里，数据科学家享有很大的自主权，他们需要不断学习新东西，并且利用自己的技能来解决重大问题。比如，与医生合作分析药物试验，帮助运动队挑选新运动员，或重新设计小部件业务的定价模式。正如我们在第三章中将要讨论的那样：成为一名数据科学家并没有单一的方法。因为科学家们都来自不同的背景，所以你不会因为你在本科阶段选择了什么专业而受到限制。

但并非所有的数据科学工作都如此完美。公司和求职者，站在不同的角度，都会对这个职业有一些不切实际的期望。例如，刚接触数据科学的公司可能认为，他们的数据科学家能够用数据解决所有问题。当一名数据科学家最终被录用时，他可能会面临一大堆没完没了的要求。他的任务可能是，在没有准备充分或整理完数据时，立即实施机器学习。也可能是，没有人来指导他们，甚至没有人同情和理解他们所面临的问题。我们将在章节5和7中更深入地讨论这些问题，我们将帮助你避免加入一个并不适合新数据科学家的糟糕的公司。在第9章，我们将会为处于困境中的你提出一些建议。

从求职者的角度来看，他们也许会认为这个新职业永远都是高光时刻，或者期望投资者们例行地遵循数据科学家的建议。或者，作为数据工程师，他们可以立即修复任何数据的质量问题，并且能够最快的获得可用计算资源来实现模型。但是，事实上，数据科学家会花费大量时间来清理和准备数据，以及处理一些团队管理的问题，比如工作预期和优先级的问题。项目不会永远是成功的。管理人员可能会对客户做出一些不切实际的承诺：承诺他们所建立的数据科学模型能提供这样那样的功能。有的公司可能会使用比较陈旧的数据系统，而这种系统往往不可能实现自动化，并且每周需要花费数小时的精力来清理数据。数据科学家可能会注意到遗留分析中的许多统计或技术错误，这些错误会产生一些非常实际的后果，但，没有人对此感兴趣，而且通常数据科学家的工作太过繁重，以至于没有时间修复它们。数据科学家在项目中可能还需要准备报告，用于支持高级管理层制定的决策。因此，如果数据科学家给出不同的答案，那么他们也许会有被解雇的风险。

这本书会带你过一遍成为数据科学家的过程，以及一些帮助你职业生涯发展的问题。我们想要确保你——读者，得到成为一个数据科学家所具备的重要的知识，并且避免大多数陷阱。也许你的工作领域与之相近，比如市场分析，你想知道如何转换工作。或者你已经是一名数据科学家了，但是你正在寻找一份新工作，并且认为你在第一次找工作时做得并不好。或者你想通过在会议上发言、为开源做贡献或成为一名独立顾问来促进你的职业发展。无论你的水平如何，我们都相信这本书会对你有所帮助。

本书的前四章，会涵盖数据科学技能和一些建立投资组合的主要机会的内容，以求绕过需要经验才能获得经验的悖论。第二部分展示了如何写求职信和简历来获得面试机会，以及如何建立你的人际网络来获得推荐。我们还将讨论一些谈判策略，研究表明这些策略方法会使您得到最好的工资待遇。

当你从事数据科学方面的工作时，你需要撰写分析报告，与利益相关者合作，甚至可能需要将模型投入生产。我们第三部分的内容会帮助你理解所有这些过程是什么样子的，以及如何为自己的成功做好准备。在第四部分中，当项目不可避免地失败时，你会学到该如何让自己振作起来。当你准备好了，我们会在这里指导你做出职业发展的决定：晋升到管理层，继续做个人贡献者，甚至成为一名独立顾问。

但是，在你开始这个旅程之前，你需要清楚什么是数据科学家，他们的工作是什么。数据科学是一个广泛的领域，涵盖了许多类型的工作，你越了解这些领域之间的差异，你就越能在其中成长。

1.1什么是数据科学？

数据科学是使用数据进行分析理解问题，和解决现实问题的一种实践。这个概念并不新奇；自从zero发明以来，人们就一直在分析销售数据和销售趋势。然而，在过去的十年间，我们获得了比以往更多的数据，因为计算机的出现帮助产生了许许多多的数据，并且计算机也是我们处理海量信息的唯一途径。通过计算机代码，数据科学家们可以转换或聚合数据、运行统计分析、或训练机器学习模型。代码的输出可能是供人类使用的报告或仪表，也可能是一个个被部署好的以持续运行的机器学习模型。

例如，如果一家零售公司在新店选址时遇到困难，它可能会请数据科学家进行分析。数据科学家可以查看在线订单运送地点的历史数据，以了解客户的位置需求。他们还可以将客户位置数据与人口普查记录中这些地区的演示图形以及收入信息结合。有了这些数据集，他们可以找到开设新店的最佳地点，并制作一个PowerPoint演示文稿，向公司零售运营副总裁展示他们的建议。

在另一种情况下，一家零售公司可能希望通过在顾客购物时向他们推荐商品来增加在线订单。数据科学家们可以加载历史web订单数据，并创建一个机器学习模型，给定购物车中当前的一组商品，预测向购物者推荐的最佳商品。创建该模型后，数据科学家将与公司的软件工程团队合作，这样每当客户购物时，新的机器学习模型就会提供推荐商品。

当许多人开始研究数据科学时，他们面临的一个挑战是，他们会被大量需要学习的东西所淹没，比如编码（但要学习哪种语言?）、统计学（但哪些方法在实践中最重要，哪些主要是用于学术讨论的?）、机器学习（但机器学习与统计学或人工智能有何不同?）以及他们想要从事的任何行业内的领域知识（但如果你不知道自己想要在哪个行业工作呢?）除了这些之外，他们还需要学习一些商业技巧，比如如何将结果有效地传达给其他听众们（从数据科学家到首席执行官们）。这些焦虑可能会因为“博士学位”、“数据科学经验”和“统计编程专业知识”而加剧。你该如何学会这些技能？你应该从哪几个开始呢？最基础的是什么？

如果研究过数据科学的不同领域，那么你可能熟悉康威（Drew Conway）的流行数据科学维恩图。在他看来（在创建图表时），数据科学是很多领域的交叉学科：数学和统计知识、某领域的专业知识以及黑客技能（编码）。这个图像经常被用来定义什么是数据科学家的基础。从我们的角度来看，数据科学的组成部分与他提出的略有不同（图1.1）。

图1.1. 组合成数据科学的各项技能以及它们如何组合成不同的角色

我们把康威（Drew Conway）原来的维恩图改成了三角形，这并不代表你有没有技能；而是你拥有它的程度与该领域其他人不同。虽然这三种技能都是基础技能，并且你需要获得相应的学位，但你不需要在所有方面都成为专家。我们把不同类型的数据科学专业放在三角形内。这些专长通常并不与职位一一对应，即使有，不同的公司有时也会用不同的名称来称呼它们。

那么图中各个组成部分意味着什么呢?

1.1.1数学/统计学

在基础层面上，数学和统计知识是数据认知。我们把数据认知分为三个层次:

l 技术存在性——如果你不知道某件事是可行的，你就不能使用它。如果数据科学家试图对类似的客户进行分组，那么了解统计方法（称为聚类）可以达成目标将是第一步。

l 如何应用这些技术——尽管数据科学家可能知道很多技术，但他们也需要能够理解应用这些技术的复杂性——不仅要知道如何编写代码来应用这些方法，还要知道如何配置这些方法。如果数据科学家想要使用k-means聚类这样的方法来对客户进行分组，他们就需要了解如何在R或Python这样的编程语言中进行k-means聚类。他们还需要了解如何调整方法的参数，例如，通过选择要创建多少组。

l 如何选择技术——由于数据科学中可以使用的技术非常之多，因此数据科学家能够快速评估一种技术是否能够很好地工作是很重要的。在我们的客户分组测试中，即使数据科学家关注聚类，他们也必须考虑几十种不同的方法和算法。他们不需要尝试每一种方法，而是需要能够快速排除几种方法，并专注于其中的几种。

这些技能在数据科学中经常被使用。我们来考虑一个例子，假设你在一家电子商务公司工作。你的业务合作伙伴可能对平均订单价值最高的国家感兴趣。此时如果你有可用的数据，那么这个问题就很容易回答。但是，与其简单地展示这些信息，让你的客户自己得出结论，你还不如深入挖掘这些数据。如果你有一个来自国家A的100美元订单，和一千个来自国家B的75美元订单。毫无疑问国家A的平均订单价值更高。但这是否意味着你的业务伙伴必须在A国投资广告，以增加订单数量？答案可能是否定的。A国只有一个数据点，它可能是某个离群值。如果国家A有500个订单，那么你可以使用一个统计测试来查看订单的价值是否有显著变化，这意味着如果在这个度量上A和B之间没有差异，你就不可能会看到之前的误差。在这个很长的例子中，我们对哪些方法是明智的、哪些应该被考虑，以及哪些结果被认为是不重要的做出了许多不同的评估。

1.1.2 数据库/编程

编程和数据库是指从公司数据库中提取数据并编写清晰、高效、可维护的代码的能力。这些技能在许多方面与软件开发人员必备的技能相似，只是数据科学家必须编写用于进行开放式分析的代码，而不是生成预定义的输出。每个公司的数据堆栈都是独一无二的，所以数据科学家不需要一套技术类技能。但总的来说，你需要知道如何从数据库中获取数据，以及如何清理、操作、汇总、可视化和共享数据。

在大多数数据科学工作中，主要语言是R或Python。R是一种植根于统计的编程语言，因此它通常在统计分析、建模、可视化和生成带有结果的报告方面表现得最为强大。Python是一种编程语言，最初是一种通用的软件开发语言，现在在数据科学中非常流行。Python在处理大型数据集、进行机器学习和支持实时算法（如亚马逊的推荐引擎）方面比R更好。但是由于许多贡献者的努力，这两种语言的能力现在几乎相等。数据科学家正成功地使用R来制作每周运行数百万次的机器学习模型，他们也在用Python进行干净、像样的统计分析。

R和Python是数据科学领域最流行的语言，原因如下：

l 它们是免费的开源的，这意味着很多人，不仅仅是一家公司或者一个团体，贡献了你可以使用的代码。它们有许多用于数据收集、操作、可视化、统计分析和机器学习的包或库（代码集）。

l 重要的是，由于每种语言都有大量的追随者，数据科学家在遇到问题时很容易处理。尽管一些公司仍然使用SAS、SPSS、STATA、MATLAB或其他付费程序，但也有许多公司开始转而使用R或Python。

尽管大多数数据科学分析是在R或Python中完成的，但您通常需要使用数据库来获取数据。这就是我们使用SQL语言的原因。SQL是大多数数据库用来操作数据或提取数据的编程语言。假设一个数据科学家想要分析公司中的数亿个客户的订单记录，以预测每天的订单将如何随时间变化。首先，他们可能会编写一个SQL查询来获取每天的订单数量。然后，他们将接受这些每日订单计数，并在R或Python中运行一个统计预测。由于这个原因，SQL在数据科学界非常流行，如果不了解它，你就很难走得太远。

另一个核心技能是使用版本控制——一种跟踪代码如何随时间变化的方法。版本控制允许你存储你的文件；将它们恢复到以前的某一时间；看看是谁，怎么改的，什么时候改的。这一技能对于数据科学和软件工程非常重要，因为如果有人意外更改了一个破坏文件的代码，那么这时你会希望能够恢复或查看被更改的内容。

到目前为止，Git是最常用的版本控制系统，通常与GitHub（基于web的Git托管服务）一起使用。Git允许保存（提交）更改，还可以查看项目的整个历史以及每次提交时如何更改。如果两个人分别处理同一个文件，Git会确保没有人的工作被意外删除或覆盖。在许多公司，特别是那些拥有强大工程团队的公司，如果想要共享代码或将某些东西投入生产，就需要使用Git。

不编程你能成为数据科学家吗?

仅使用Excel、Tableau或其他具有图形界面的商业情报工具就可以完成大量的数据工作。虽然您不是在编写代码，但这些工具声称具有与R或Python等语言相同的许多功能，而且许多数据科学家有时确实使用它们。但它们能成为一个完整的数据科学工具包吗?我们说“不”。实际上，很少有公司拥有不需要编程的数据科学团队。但即使不是这样，编程也比使用这些工具有优势。

编程的第一个优点是可再现性。当您编写代码而不是使用指向-点击软件时，您可以在数据发生变化时重新运行它，无论是每天还是每六个月。这个优点也与版本控制有关:不必每次代码更改时都重命名文件，你可以保留一个文件，但可以查看它的整个历史。

第二个优点是灵活性。例如，如果Tableau没有可用的图形类型，你将无法创建它。但是通过编程，你可以编写自己的代码来实现工具的创建者和维护者从未想过的东西。

开源语言（如Python和R）的第三个也是最后一个优势是社区的贡献。成千上万的人创建包，并在GitHub和/或CRAN（用于R）和pip（用于Python）上公开发布我们可以下载这些代码，并使用它解决自己的问题。我们不需要依赖一家公司或一群人来添加功能。

1.1.3业务理解

任何足够先进的技术都与魔法无异。

——阿瑟·c·克拉克

委婉地说，企业对数据科学的运作方式有不同的理解。通常情况下，管理层只是想要完成某个业务，然后求助于数据科学领域的独角兽来实现这一目标。数据科学的核心技能是知道如何将业务情况转化为数据问题，找到数据答案，并最终交付业务答案。例如，商务人士可能会问:“为什么我们的客户要离开?”但是这里没有“为什么客户要离开”的Python包可以供我们导入——这取决于你如何用数据来回答这些问题。

业务理解是数据科学理论与现实世界的实用性相结合的地方。仅仅想要一个特定的信息而不知道数据是如何在特定的公司存储和更新的是不够的。如果你的公司是一个订阅服务，数据在哪里？如果有人更改了订阅，会发生什么?是否更新了订阅服务器中的某一行，或者向表中添加了另一行？您需要处理数据中的错误或不一致吗?如果你不知道这些问题的答案，你就无法准确回答像“2019年3月2日我们有多少订阅者?”这样的基本问题。

业务理解还可以帮助你知道你应该问哪些问题。当被问到“下一步我们应该做什么？”这就有点像在问“为什么我们没有更多的钱？”诸如此类的问题会引出更多的问题。对核心业务（以及涉及到的人）的理解可以帮助你更好地分析形势。你可以接着问“关于哪个产品线你正在寻求指导？”或者“您是否希望看到更多特定人群的参与？”

数据科学会消失吗?

关于数据科学是否会在10年或20年后消失，背后有两个主要担忧:这项工作将会自动化，数据科学被过度炒作，所以就业市场泡沫将会破裂。

的确，数据科学的某些部分可以自动化。自动机器学习（AutoML）可以比较不同模型的性能，并执行某些部分的数据准备（如缩放变量）。但这些任务只是数据科学过程的一小部分。例如，您经常需要自己创建数据;很少有完全干净的数据等着你。此外，创建数据通常需要与其他人交谈，例如用户体验研究人员或工程师，他们将进行调查或记录用户行为，从而推动您的分析。

关于就业市场泡沫破裂的可能性，一个很好的比喻是20世纪80年代的软件工程。随着计算机变得越来越便宜，越来越快，越来越普遍，人们担心计算机很快就能做所有的事情，也就不需要程序员了。但是相反的事情发生了，现在在美国有超过120万的软件工程师。虽然像网站管理员这样的头衔已经消失了，但是越来越多的人致力于网站的开发、维护和改进。

我们相信，数据科学将会有更多的专业化，这可能会导致一般头衔的数据科学家消失，但许多公司仍处于学习如何利用数据科学的早期阶段，那里还有大量的工作要做。

1.2 不同类型的数据科学工作

你可以将数据科学的三个核心技能（在1.1节中介绍）混合并匹配到工作中，所有这些都可以成为数据科学家的技能。在我们看来，这些技能主要通过三种方式混合在一起:分析学、机器学习和决策科学。每个领域都为公司服务不同的目的，并从根本上提供不同的方案。

在寻找数据科学类的工作时，你应该少关注一些职位头衔，多关注职位描述和面试中被提问的内容。看看从事数据科学工作的人的背景，比如他们之前做过什么工作，他们的学位是什么。你可能会发现，从事类似工作的人有着完全不同的头衔，或者拥有相同数据科学家头衔的人做着完全不同的事情。当我们在本书中谈论不同类型的数据科学工作时，请记住，公司实际使用的头衔很可能会有所不同。

1.2.1 分析

分析师把数据放到正确的人面前。在一家公司设定了年度目标之后，你可以把这些目标放在一个面板上，这样管理层就可以每周跟踪进度。您还可以内置一些特性，让经理们可以轻松地按国家或产品类型拆解这些数字。这项工作涉及大量的数据清理和准备工作，但通常涉及很少的解释数据工作。尽管你的工作是发现和修复数据质量问题，但使用该数据做出决策的主要人员是你的业务合作伙伴。因此，分析师的工作是从公司内部获取数据，有效地格式化和安排数据，并将这些数据传递给其他人。

因为分析师的角色不涉及大量的统计和机器学习，一些人和公司会认为这个角色不属于数据科学领域。但是很多工作，例如设计有意义的可视化和决定特定的数据转换，都需要在其他类型的数据科学角色中使用相似技能。分析师可能会被赋予这样的任务:“创建一个自动化界面，显示我们的订阅者数量如何随时间变化，并让将订阅者数据过滤到特定产品或特定地理区域。”“分析师必须在公司内部找到适当的数据，找出如何适当地转换数据的方法（例如通过改变从每日到每周的新订阅），然后创建一组有意义的、视觉上引人注目的界面，以及每日没有误差的自动更新。

简而言之：分析师创建交付数据的面板和报告。

1.2.2机器学习

机器学习工程师开发机器学习模型，将其投入生产，并在生产中不断运行。他们可能会优化电子商务网站搜索结果的排名算法，创建推荐系统，或监控生产中的模型，以确保其性能自部署以来没有下降。机器学习工程师会花很少的时间在创建视觉化这样能让人们信服的事情上，而花更多的时间在数据科学的编程工作上。

这个角色和其他类型的数据科学职位的一个很大的区别是，工作输出主要是机器来消费。例如，您可以创建机器学习模型，并将其转换为用于其他机器的应用程序编程接口（api）。在许多方面，与其他数据科学角色相比，这个角色更接近于软件开发人员。尽管遵循最佳编码实践对任何数据科学家都有好处，但作为一个机器学习工程师，你必须这样做。你的代码必须是性能良好、经过测试和编写的，以便其他人能够使用。因此，许多机器学习工程师都有计算机科学背景。

机器学习工程师可能会被要求创建一个机器学习模型，以便实时预测网站上的客户实际完成订单的概率。机器学习工程师必须找到公司的历史数据，训练一个机器学习模型，把这个模型变成一个API，然后部署API，以便网站可以运行这个模型。如果该模型由于某种原因停止工作，机器学习工程师将被调用来修复它。

简而言之，机器学习工程师创建的模型可以持续运行。

1.2.3决策科学

决策科学家将公司的原始数据转化为信息，帮助公司做出决策。这项工作依赖于对不同的数学和统计方法的深刻理解和对商业决策的熟悉。此外，决策科学家必须能够做出令人信服的可视化表格，以便与他们交谈的非技术人员能够理解他们的分析。尽管决策科学家要做大量的编程工作，但他们的工作通常只运行一次，以进行特定的分析，因此他们可以避免编写效率低下或难以维护的代码。

决策科学家必须了解公司内其他人的需求，并弄清楚如何产生建设性的信息。例如，市场总监可能会请决策专家帮助他们决定哪些类型的产品应该在公司的节日礼物指南中突出。决策科学家可能会调查哪些产品卖得很好，却没有在礼物指南中得到推荐，与用户研究团队讨论如何进行调查，并使用行为科学的原则进行分析，提出最佳的商品建议。决策科学家输出的结果很可能是一个与产品经理、副总裁和其他商务人士共享的PowerPoint演示文稿或报告。

决策科学家经常使用他们的统计知识来帮助公司在不确定的情况下做出决策。例如，决策科学家对他们公司的实验分析系统运行负有责任。许多公司进行在线实验，或A/B测试，以衡量一项改变是否有效。这种改变可以简单到添加一个新按钮，也可以复杂到改变搜索结果的排名系统，或者完全重新设计一个页面。在A/B测试中，访问者被随机分配到两种或两种以上的条件中的一种，比如一半访问旧版本的主页，这是对照，一半访问新版本的主页，这是处理。然后比较访客进入实验后的行为，看看那些在新版本中的人是否有更高的比率进行令公司满意的行为，比如购买产品。

因为随机性，控制和处理中的参数很少完全相同。假设你抛了两枚硬币，100次中有52次是正面，100次中有49次是正面。你会得出结论说第一个硬币正面向上的可能性更大吗？当然不是！但是一个商业伙伴可能会看一个实验，看到对照组的转化率是5.4%，治疗组的转化率是5.6%，然后宣布治疗是成功的。决策科学家的职责是帮助解释数据，执行设计实验的最佳实践，等等。

简而言之：决策科学家进行分析并提出建议。

1.2.4相关工作

虽然前面几节讨论的三个领域是数据科学职位的主要类型，但你可能会看到一些其他不同的角色，它们不在这些类别之内。我们在这里列出这些工作，因为了解这些职位是很有好处的，因为你可能需要和这些岗位上的同事合作。也就是说，如果你对以下其中一个角色感兴趣，那么这本书所讲的内容可能与你不太相关。

商业智能分析

商业智能分析师的工作确实与分析师类似，但他们通常使用较少的统计和编程专业知识。他们选择的工具可能是Excel而不是Python，而且他们可能永远不会制作统计模型。尽管他们的工作功能类似于分析师，但由于工具和技术的限制，他们创造的输出不那么复杂。

如果你想做机器学习或编程，或应用统计方法，商业智能分析师的职位可能是一个令你不太满意的职位，因为它不会帮助你获得新的技能。此外，这些工作的薪酬通常比数据科学工作低，而且被认为不那么有声望。但是，商业智能分析师的工作可能是成为数据科学家的一个很好的切入点，特别是如果你以前没有在商业环境中处理过数据的话。如果你想从一名商业智能分析师开始，然后成长为一名数据科学家，那么寻找一些你可以学习技能的职位，比如用R或Python编程。

数据工程师

数据工程师关注的是在数据库中维护数据，并确保人们能够获得他们需要的数据。他们不运行报告、分析或开发模型；相反，他们将数据整齐地存储在结构良好的数据库中并格式化，这样其他人就可以做很多事情。数据工程师的任务可能是维护大型云数据库中的所有客户记录，并根据要求向该数据库添加新表。

数据工程师与数据科学家截然不同，他们更稀少，也更受欢迎。数据工程师可以帮助建立公司内部实验系统的数据后端组件，并在工作开始耗时太长时更新数据处理流程。其他数据工程师开发和监控批处理和流环境，管理从收集到处理再到数据存储的数据。

如果你对数据工程感兴趣，你需要很强的计算机科学技能；许多数据工程师以前都是软件工程师。

研究科学家

研究科学家开发和实现新的工具、算法和方法，通常被公司内的其他数据科学家使用。这些类型的职位几乎总是需要博士学位，通常是计算机科学，统计，定量社会科学，或相关领域的学者。研究人员可能会花费数周的时间来研究和尝试提高在线实验能力的方法，让自动驾驶汽车图像识别的准确率提高1%，或者构建一种新的深度学习算法。他们甚至会花时间写研究论文，这些论文可能很少在公司内部使用，但却有助于提高公司的声望，（理想情况下）推动该领域的发展。因为这些职位需要非常具体的背景，所以我们在本书中不着重讨论它们。

1.3选择你的道路

在第三章中，我们介绍了获取数据科学技能的一些选项，每种选项的优缺点，以及选择其中的一些建议。从这里开始，你最好开始思考你想要专门研究的数据科学领域。你在具有哪些方面的经验？我见过的数据科学家，他们曾经是工程师、心理学教授、市场经理、统计学学生和社会工作者。很多时候，你在其他工作和学术领域获得的知识可以帮助你成为一个更好的数据科学家。如果您已经学过数据科学，那么现在考虑一下您处于三角形的哪个部分将会对你很有帮助。你对你的现状满意吗？你想换一份不同类型的数据科学工作吗？转行通常是可行的。

Vicki Boykis: 人人都能成为数据科学家吗?

随着人们对数据科学的乐观（以及新闻报道中列出的高薪），我们很容易理解：为什么它能提供诱人的职业机会。尤其是随着数据科学职位的范围不断扩大。但作为数据科学领域的新进入者，你有必要对未来几年数据科学市场的走向有一个现实而细致的看法，并做出相应的调整。

今天有几个趋势影响着数据科学领域。首先，数据科学作为一个领域已经存在了10年，因此，已经经历了炒作周期的早期阶段：大众媒体炒作、早期采用和整合。它已经被大肆宣传，被媒体谈论，被硅谷公司和其他公司采用，我们现在正处于大公司采用数据科学工作流工具的高速增长阶段，如Spark和AutoML。

其次，其结果是，新的数据科学家供不应求，他们都来自训练营、大学里新建的数据科学项目或在线课程。任何给定的数据科学职位，尤其是入门级职位，候选人的数量已经从每个职位的20人左右增加到100人以上。每个空缺职位看到500份简历已经不是什么新鲜事了。

第三,标准化的工具集和现成的劳动力,以及对经验丰富的人的需求, 意味着数据科学职称分配方式的转变，以及数据科学工作和描述的层次结构的不同。例如，在某些公司中，“数据科学家”可能意味着创建模型，但在某些公司中，它主要意味着运行SQL分析，这相当于过去的数据分析师头衔。

对于那些希望进入数据科学领域的新手来说，这意味着什么。首先，也是最重要的是，他们可能会发现就业市场竞争异常激烈，特别是对于那些刚进入这个行业的人(比如大学毕业生)，或者那些刚从其他行业转行过来的人，他们要与成千上万的像他们一样的求职者竞争。其次，他们可能申请的工作并不像博客文章和流行媒体所描述的那样真正反映数据科学——仅仅是编写和执行算法。

考虑到这些趋势，重要的是要明白，从一开始很难从一堆简历中脱颖而出，从而进入最后一轮面试。虽然你在这本书中读到的策略可能看起来需要很多准备工作，但它们将帮助你脱颖而出，这是在这个新的、竞争激烈的数据科学环境中你所需要的。

1.4 访问Airbnb的数据科学家Robert Chang

罗伯特·张（Robert Chang）是Airbnb的一名数据科学家，他在Airbnb Plus产品部工作。他之前曾在Twitter增长团队工作，做产品分析，创建数据管道，运行实验和创建模型。你可以在https://medium.com/@rchang上找到他关于数据工程的博客文章、他对有抱负的新数据科学家的建议、以及他在Airbnb和Twitter的工作。

你的第一次数据科学之旅是什么?

我的第一份工作是在华盛顿邮报做数据科学家。回到2012年，我准备离开学术界进入工业界，但我不知道自己想做什么。《纽约时报》的工作给我留下了深刻的印象，我希望成为一名数据可视化科学家。当我参加学校的招聘会时，看到《华盛顿邮报》（The Washington Post）在招聘，我当时很天真，我以为他们一定在做和《纽约时报》类似的事情。我申请并得到了这份工作，而且我没有做任何尽职调查。

如果你想让我举个例子告诉你如何不开始你的数据科学职业生涯，我绝对会自告奋勇！我得到这份工作是希望做数据可视化或建模，但我很快意识到我的工作不仅仅是数据工程师。我的大部分工作是构建ETL（提取转换加载）管道，重新运行SQL脚本，并试图确保报表运行，以便我们可以向主管报告顶级指标。这在当时是非常痛苦的；我意识到我想做的与公司真正需要的不一致，最终我离开了工作。

但后来在Twitter和Airbnb工作的几年里，我意识到我看到的是常态，而不是某次例外。当你构建数据功能时，你必须一层一层地构建它。Monica Rogati写了一篇关于数据科学需求层次的著名博客文章，非常准确（http://mng.bz/ad0o）。但当时，我还太年轻，无法理解真实、实时的数据科学工作是如何完成的。

人们应该在数据科学工作中寻找什么?

如果你正在寻找数据科学方面的职位，你应该关注公司的数据基础设施状况。如果你加入的公司只有一堆没有存储在数据仓库中的原始数据，你可能需要几个月甚至几年的时间才能完成有趣的分析、实验或机器学习。如果这不是你想做的事情，你就会在公司的发展阶段和你想为公司做的贡献之间产生根本的偏差。

要评估这一点，您可以问这样的问题:“您有数据基础设施团队吗?”他们出现多久了？什么是数据堆栈？你有数据工程团队吗？他们如何与数据科学家合作？当你构建一个新产品时，你是否有一个测试日志、构建数据表并将它们放入数据仓库的过程？“如果没有这些东西，你将成为负责创造这些东西的团队的一员，并且你将在这上面投入大量时间。”

第二要注意的是人。有三种人是你应该注意的。假设你不想成为第一个数据科学家，你想加入一个有经验的领导者的数据科学团队。一个有经验的领导者知道如何建立和维护一个良好的基础设施和工作流程，让数据科学家更有效率。第二，寻找一位支持持续学习的经理。最后，这一点非常重要，尤其是当你刚开始工作的时候，你需要和一个非常实践性的技术主管或高级数据科学家一起工作。在你的日常工作中，他是对你帮助最大的人。

成为一名数据科学家需要具备哪些技能?

我认为这取决于你想找什么样的工作以及雇主设定的标准。顶级公司通常有很高的门槛，有时高得不合理，因为有很多人想要加入公司。他们通常寻找的是独角兽——拥有R或Python数据处理技能，以及构建ETL管道、数据工程、实验设计、构建模型并将其投入生产的经验的人。这给了候选人很大的压力！虽然这些都是你最终可以学习的技能，而且可能对你正在解决的任何问题都有用，但我不认为它们是进入数据科学的必要条件。

如果你了解R或Python，并有一点SQL知识，那么你已经具备了进入数据科学的良好条件。如果你能预先学习更多的东西来规划你的职业生涯，那总是很有帮助的，但我不认为那是必要的。更重要的是要热爱学习。如果你想被顶级科技公司聘用，你需要更多一点知识，但这更多是为了面试，而不是你在工作中真正需要的东西。如果你想进入一个有竞争力的名牌公司，你需要区分数据科学职业生涯所需的核心技能和其他技能，这对你很有帮助。

❤本章总结

l 不同的人、不同的职位，所需的数据科学技能各不相同。虽然有些知识是基础知识，但数据科学家并不需要成为每一个相关领域的专家。

l 数据科学领域的工作有不同的关注点：把正确、清洁的数据摆在利益相关者面前（分析）；将机器学习模型投入生产（机器学习）以及利用数据进行决策（决策科学）。