独家 | 2021,什么数据分析技能最重要?

作者:Emmett Boudreau

翻译:朱启轩

校对:和中华

本文约2800字,建议阅读8分钟

本文主要介绍数据科学的发展趋势以及当今工作岗位所需要的数据分析技能。

 Image by author

 

业界最需要的是什么技能?新的一年里您应该从哪里开始学习?

 

导论

对于像数据科学这种飞速发展的领域,很容易理解为何在给定时间内难以掌握一些热门技能。成为一名数据科学家的关键是研究并且熟练掌握那些任意时刻出现的先进技术。您永远不知道什么时候可能需要一个以前从未使用过的工具、函数或模块,因而需要首先学习如何使用它们。这就是为什么我们大多数人喜欢阅读“走向数据科学”(Towards Data Science)可考虑加一句译者注,说明这是一个数据科学门户网站!

 

数据科学最大的障碍是过去几年来其突飞猛进般的演变。近年来,数据科学已经从一个相对鲜为人知的领域转变为后十年里最热门的工作方向。所以,其概念体系/生态体系也在快速发展。这也意味着:如果您停滞不前,则很容易在数据科学的大潮之中落后。

 

对于数据科学家而言,有一些关键属性是雇主所看重并且追寻的,但最重要的属性是您所熟悉的技术。就现在情况看来,熟悉从动画片摩登原始人(Flintstones)中模仿的脚车技术可能并不像熟悉TensorFlow这样有价值。

 

由于数据科学市场和其概念体系在不断发展,因此很难确定雇主实际想在自己的解决方案中使用的最新技术到底是什么。幸运的是,由于我们是数据科学家,因此我们可以通过浏览互联网以查找更多数据科学岗位所需的技能,例如编程语言,包,和软件。

 

要想找到一份完美的数据集,来回答该选择什么“数据科学技术”(体系)并不完全可行,因此以下概述来自于我的个人经验。虽然如此,这些概述也都来源于数据科学岗列出的工作要求,比较全面,并且与数据科学的内在联系很紧密。此外,数据科学领域也在迅速发展。这意味着尽管某些技术在第一季度可能很有用,但是在第三第四季度可能就不再被使用了。因此,我谨就此方面的技术提出自己的见解。

 

行业需求

 

任何有远大理想的数据科学家都一定会熟悉许多业界常用的技能。有这些技能的使用经验一直都是很多工作岗位要求的一部分,因为它们很可能是您入职以后所使用的那些技能。至少,熟悉这些技能的基本概念能够确保您在使用他们之时更容易上手。

 

Python

 

首先,如果您还不了解Python,建议您学习Python。尽管在数据分析中还会用到R,SAS甚至是Julia,大多数工作岗位寻求的还是精通Python的人。这并不是说其他语言是没用的,因为能够适用于不同目的的编程语言技能组合往往是最佳的。比如说,如果要建造花园,我想使用的不仅是铲子,尽管我可能要做更多的工作,我最终还是能够把花园建好的。

 

Python是当前科学计算领域的行业标准。这是有充分理由的,因为Python生态系统是其他任何语言都无法比拟的。另一个很棒的事情是,Python的设计使得它很容易使用。对于那些初学者,我会推荐Python,因为它会对您很有帮助!

 

分析

 

至于分析方面,通常都不直接列出技术。这仅是因为,取决于您想做什么,在进行具体的可视化时,任何软件包都可以胜任。因此,考虑到这一点,最好掌握多种库以进行数据可视化。此外,分析过程中的另一个重要的要素是统计学知识。

 

我要说的是,熟悉Python的SciPy会使您更容易被公司录用。在分析方面,雇主寻找的是真实的量化结果。统计测试是获得真实量化结果的最简单方法。此外,这些统计技能将逐步演化为您的机器学习技能。

 

数据

对于数据,重要的是无论使用什么编程语言,都能对数据有深刻的理解。就是说:虽然大多数语言都具有相似的数据类型,但是用您首选的语言可能最终会完全不同。拥有一定的处理数据能力将会使数据清洗和建立有效的处理管道更加容易。

 

对于Python来说,像NumPy和Pandas这样的软件包对于处理数据绝对是必不可少的。如果您想使用复杂的数据集并训练大型模型,那么先学好如何用自己喜欢的编程语言来操作/加工数据可能更为重要。尽管数据科学的重要组成部分是机器学习,但很多职位头衔一般不包含机器学习。原因是,首先,数据科学家会先预处理数据,然后用科学的方法进行实践。考虑到这一点,如果没有对数据操作的正确理解,甚至都很难建立模型并运行它。简单来说,处理数据是最重要的一步,也是精通机器学习前的第一步。

 

数据方面的另一重要事项是了解如何处理和存储数据。从数据湖,数据库和表的知识出发,您还应该知道如何查询数据并将其带入代码中以进行测试。能够对数据进行算术运算是非常棒的,但是当您没有数据时,它将变得毫无用处。

 

此外,数据聚合算法很重要,无论是来自日志数据,生成的数据还是最常用的数据。使用API服务并能够以许多非传统方式检索数据对于任何数据科学家来说无疑都是必不可少的。

 

机器学习

 

在机器学习方面,虽然一些更高级的概念(例如,构建神经网络)可能很酷,但在许多情况下,使用典型的黑盒模型可能是最佳选择。我认为这意味着数据科学家应该至少对两者都有一定的了解。尽管我认为这些技能没有什么价值,因为大多数时候这些知识框架都是由其他人(尤其是在行业中)预先构建好了的,(译者补充:大多数时候只要调包就行了)所以大多数工作要求Python开发人员至少具有类似使用Sklearn库的经验。

 

开发运维

 

开发运维是一个经常被忽视的数据科学技能。所有模型都有一个目的,通常该目的是为了部署各个模型。因此,虚拟环境管理通常会有一段时间成为数据科学团队的重要工作内容。这些至关重要的基础技能也可能有助于编程,但主要是在构建更复杂的数据解决方案时会有所帮助。

 

如果您不知道如何将开发运维组合在一起,那运用现行的开发运维技术是很困难的。至少,对于许多数据科学家而言,了解如何使用终端并熟悉命令行(CLI)绝对是必不可少的。一年多以前,我写了一篇关于为什么开发运维会如此重要的文章,实际上,您可以在这里查看:

 

The benefits of devlops skills in data science:

https://towardsdatascience.com/the-benefits-of-dev-ops-skills-in-data-science-fa0a30aade85

 

构建您自己生态系统

 

想吸引大批的数据科学家往往是很困难的,因为他们经常使用不同的语言。话虽这么说,对于您偏好的语言,可能还有一些软件包,可能在2021年还需要您去掌握。根据我在职位列表上看到的内容,我列出了几个热门语言中比较重要且值得学习的软件包。

 

Python

  • NumPy

  • Math

  • Scipy(Scipy.stats)

  • Pandas

  • TensorFlow

  • Sklearn

  • Matplotlib/Seaborn

  • Plot.ly

  • Keras

  • Pytorch

  • PySpark


Julia

  • Plots

  • Makie

  • DataFrames

  • GadFly

  • MLJ

  • Lathe

  • GLM

  • Flux

  • Knet


R

  • Shiny

  • ggplot2

  • data.table

  • dplyr

  • tidyr

  • knitr


C++

  • Xtensor

  • OpenCV

  • Shogun

  • Tensorflow

 

当然,不是说就一定要按照上面的列表来学习,而是给人们提供了不同生态圈的轮廓。例如,Seaborn和Matplotlib具有许多相同的功能,因此您可能不需要两者都知道,但是绝对需要了解如何绘制统计图表。

 

未来

 

数据科学领域发展迅速,预测其未来相当困难。但是,我们可以看到有关技术发展的趋势。对于TensorFlow,Python,Pandas等行业标准软件包,它们可能会存在很长时间。我怀疑对于整个生态系统而言,它的发展方向是不定的,但不会突变。

 

话虽如此,新的编程语言Julia拥有许多有趣的前景,可能暗示着数据科学的未来。需要明确的是,这对于Python的地位没有任何意义,但对于和Python一起的其他语言角色可能会有一些意义。

 

我认为,数据科学世界每天都有很多有趣的事情在发生。对于像我这样喜欢不断学习新事物的人来说,这是一件很棒的事情,但是这也会给人以警醒,因为很难知道在任何给定时间点您应该与什么样的技能打交道才能跟上行业发展。

 

原文标题:

Which Data-Science Skills Are the Most Vital in2021?

原文链接:

https://towardsdatascience.com/which-data-science-skills-are-the-most-vital-in-2021-88ae9e76b560

编辑:黄继彦

校对:林亦霖

译者简介

朱启轩,康奈尔大学研究生在读,专业领域是应用统计,方向是数据科学。本科毕业于加州大学洛杉矶分校。热爱数据科学,对处理数据,分析数据有自己的独特见解。对新知识充满了渴望,目前正在学习自然语言处理和深度学习方面的知识,希望能认识更多志同道合的人,一起努力,一起进步。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值