独家 | 13大技能助你成为超级数据科学家!(附链接)

640?wx_fmt=png

翻译:张睿毅

校对:王威力

本文约4000字,建议阅读8分钟。

本文为你介绍超级数据科学家的13大基本技能。


640?wx_fmt=png(链接:https://www.linkedin.com/feed/update/

urn:li:activity:6531492123240431616 


好的数据科学家和超级数据科学家有什么区别?

 

640?wx_fmt=png

发布在领英上的问题


令人惊讶的是,我得到了许多来自不同行业的顶级数据科学家的回应,他们都分享了他们的想法和建议,都很有意思且实用。


为了进一步了解优秀数据科学家和超级数据科学家之间的主要区别,我一直在互联网上搜索……直到我在KDnuggets上找到这篇文章(链接:https://www.kdnuggets.com/2018/05/simplilearn-9-must-have-skills-data-scientist.html )。


所以我提炼了所有的信息,列出了成为一名超级数据科学家的技能。


实际上,数据科学家不可能具备以下所列的所有技能。但在我看来,正是这些技能使超级数据科学家超越优秀的数据科学家。


在这篇文章的最后,我希望您会发现这些技能对您作为一名数据科学家的职业生涯有帮助。


我们开始吧!


成为超级数据科学家的13大技能


1. 教育


数据科学家受过高等教育,88%至少拥有硕士学位,46%拥有博士学位,尽管有一些例外,但通常需要很强的教育背景来培养成为数据科学家所必需的知识深度。要成为一名数据科学家,您可以获得计算机科学、社会科学、物理科学和统计学的学士学位。最常见的研究领域是数学和统计学(32%),其次是计算机科学(19%)和工程学(16%)。这些学位中的任何一个都将为您提供处理和分析大数据所需的技能。


在您的学位课程之后,您还没有完成。事实是,大多数数据科学家不仅拥有硕士学位或博士学位,他们还参加在线培训,学习如何使用Hadoop或大数据查询等技能。因此,您可以申请数据科学、数学、天体物理学或其他相关领域的硕士学位。您在学位课程中学到的技能将使您能够轻松过渡到数据科学。


除了课堂学习之外,您还可以通过构建应用程序、创建博客或进行数据探查来练习您在课堂上学到的东西,从而收获更多。


在我看来,只要您能完成这项工作,拥有硕士学位或博士学位是可以选择的。在大多数工业界,解决业务问题最重要,并不一定要进行研究和部署尖端和新颖的机器学习模型。


参考这本免费电子书资源:74 secrets to become a pro data scientist(链接:https://datascientist88.bl

ogspot.com/2019/05/74-secrets-to-become-pro-data-scientist.html )


2. R语言编程


至少对分析工具中一个有深入的了解,对于数据科学R通常是首选。R是专门为数据科学需求而设计的。您可以使用R来解决您在数据科学中遇到的任何问题。事实上,43%的数据科学家使用R来解决统计问题。然而,R有一个陡峭的学习曲线。


特别是如果您已经掌握了编程语言,学习起来很困难。尽管如此,互联网上有很多资源可以让您开始学习R,比如Simplearn的数据科学培训和R编程语言。对于有抱负的数据科学家来说,这是一个很好的资源。


3. Python编程


Python是最常见的数据科学角色所需要的编码语言,还有Java、PerlC/C++。对于数据科学家来说,python是一种很好的编程语言。这就是为什么O'Reilly调查的40%的受访者使用Python作为他们的主要编程语言的原因。


由于它的多功能性,您可以将Python用于几乎所有涉及到数据科学过程的步骤。它可以采用各种格式的数据,您可以轻松地将SQL表导入到代码中。它允许您创建数据集,您可以在谷歌上找到您需要的任何类型的数据集。


您可以通过以下书籍了解更多关于Python的基础知识以及它如何在数据科学中使用:


  • Python Data Science Handbook

    (链接:https://www.amazon.com/Python-Data-Science-Handbook-Essential-ebook/dp/B01N2JT3ST/ref=as_li_ss_tl?keywords=python+for+data

    +analysis&qid=1540663027&s=Books&sr=1-2&ref=sr_1_2&linkCode=ll1&tag=admond-20&linkId=0bb8a753123e4b54f1fa6dc463585e28 

  • Python for Data Analysis

    (链接:https://www.amazon.com/Python-Data-Analysis-Wrangling-IPython-ebook/dp/B075X4LT6K/ref=as_li_ss_tl?keywords=python+for+data+analysis&

    qid=1540663027&s=Books&sr=1-1&ref=sr_1_1&linkCode=ll1&tag=admond-20&linkId=838bdee3bf4ca017f2bc905cd3680f71  

  • Learning Python

    (链接:https://www.amazon.com/Learning-Python-5th-Mark-Lutz/dp/

    1449355730/ref=as_li_ss_tl?ie=UTF8&linkCode=ll1&tag=admond-20&linkId=4497aa20eee542a8c0d91e0467082b61 


4. Hadoop 平台


虽然这并不是一项必备技能,但在许多情况下,它是首选的。有HivePig的经验也是一个不错的技能点。熟悉诸如AmazonS3之类的云工具也是有益的。一项由Crowdflower开展的调查发现,LinkedIn3490个数据科学工作岗位中49%的岗位将Apache Hadoop列为第二大重要技能。


作为一名数据科学家,您可能会遇到这样一种情况:您所拥有的数据量超过了系统的内存,或者您需要将数据发送到不同的服务器,这就是Hadoop的由来。您可以使用Hadoop快速地将数据传输到系统上的各个点。还不止这些。您可以使用Hadoop进行数据探索、数据过滤、数据采样和汇总。


5. SQL数据库/编码


尽管NoSQLHadoop已经成为数据科学的一个重要组成部分,但是仍然要求一个数据科学家能够编写和执行复杂的查询。SQL(结构化查询语言)是一种在数据库中进行增删改查的编程语言。它还可以帮助您执行分析功能和转换数据库结构。


作为数据科学家,您需要精通SQL。这是因为SQL是专门为帮助您访问、沟通和处理数据而设计的。当您使用它来查询数据库时,它会给您一些启发。它有简明的命令,可以帮助您节省时间,减少执行困难查询所需的编程量。学习SQL将帮助您更好地理解关系数据库,并提高您作为数据科学家的形象。


6. Apache Spark


Apache Spark正在成为全球最流行的大数据技术。它和Hadoop一样是一个大数据计算框架。唯一的区别是SparkHadoop快。这是因为Hadoop读取和写入磁盘,这会使磁盘速度变慢,但Spark会将其计算缓存在内存中。


Apache Spark专门为数据科学设计,以帮助更快地运行其复杂的算法。它有助于在处理大量数据时传播数据处理,从而节省时间。它还帮助数据科学家处理复杂的非结构化数据集。您可以在一台机器或一组机器上使用它。


Apache Spark使数据科学家能够防止数据科学中的数据丢失。Apache Spark的强大之处在于它的速度和平台,使其易于执行数据科学项目。使用Apache Sark,您可以执行从数据接收到分布式计算的分析。


7. 机器学习与人工智能


有许多数据科学家并不精通机器学习领域和技术。这个领域包括神经网络、强化学习、对抗性学习等。如果您想从其他数据科学家中脱颖而出,您需要了解机器学习技术,如有监督机器学习、决策树、逻辑回归等。这些技能将帮助您解决基于基于预测的不同数据科学问题。


数据科学需要在机器学习的不同领域应用以上技能。Kaggle的一项调查发现,有一小部分数据专业人员能够胜任高级机器学习技能,如监督机器学习、无监督机器学习、时间序列、自然语言处理、异常值检测、计算机视觉、推荐引擎、生存分析、强化学习以及对抗性学习。


数据科学涉及处理大量数据集操作。所以您可能需要先熟悉机器学习(链接:http://bit.ly/2N4i6za 


8. 数据可视化


商业世界通常产生大量的数据。这些数据需要转换成易于理解的格式。自然地,人们更易理解图表和图表形式的图片,而不是原始数据。有句成语说:“一幅画胜过千言万语”。


作为一名数据科学家,您必须能够借助数据可视化工具(如ggplotd3.jsmatplotlibtableau)实现数据可视化。这些工具将帮助您将项目中的复杂结果转换为易于理解的格式。问题是,很多人不理解序列相关或p值。您需要直观地向他们展示这些术语在您的结果中代表了什么。


数据可视化为企业提供了直接使用数据的机会。他们能够迅速掌握有助于他们抓住新的商业机会并保持领先地位的洞察力。


特别是,我写了一篇文章(链接:https://towardsdatascience.com/storytelling-with-data-a-data-visualization-guide-for-business-professionals-97d50512b407 来讨论数据可视化的重要性以及如何用数据创建更好的故事。


9. 非结构化数据


数据科学家处理非结构化数据的能力是至关重要的。非结构化数据无法在数据库表中定义的内容。包括视频、博客、客户评论、社交媒体帖子、视频提要、音频等,它们是大量的文本集中在一起。对这些类型的数据进行排序是困难的,因为它们不是流线型的。


由于非结构化数据分析的复杂性,大多数人将其称为“暗箱分析”。使用非结构化数据可以帮助您洞察对决策有用的见解。作为一名数据科学家,您必须能够理解和操作来自不同平台的非结构化数据。


10. 好奇性思维


“我没有特殊的才华,只有极强的好奇心。”

— Albert Einstein


毫无疑问,您最近到处都看到这个短语,尤其是与数据科学家有关。FrankLo描述了它的含义,并在几个月前发布的特邀专栏中谈到了其他必要的“软技能”。


好奇心可以定义为获得更多知识的渴望。作为一个数据科学家,您需要能够提出关于数据的问题,因为数据科学家花费80%的时间来发现和准备数据。这是因为数据科学领域是一个发展非常迅速的领域,您必须学习更多的东西来跟上这个步伐。


您需要定期通过在线阅读内容和阅读有关数据科学趋势的相关书籍来更新您的知识。不要被网络上大量的数据所淹没,您必须知道如何理解这些数据。好奇心是您成功成为数据科学家所需要的技能之一。例如,最初,您可能在收集的数据中看不到太多洞察。好奇心会让您通过筛选数据来找到答案和更多的见解。


11. 商业敏锐度


要成为一名数据科学家,您需要对您所从事的行业有一个扎实的了解,并知道您的公司正试图解决什么样的商业问题。在数据科学方面,除了确定业务应利用其数据的新方法外,能够识别哪些问题对于业务来说是重要的,这一点至关重要。


要做到这一点,您必须了解您解决的问题如何影响业务。这就是为什么您需要知道企业是如何运作的(参考:https://towardsdatascience.com/5-lessons-i-have-learned-from-data-science-in-real-working-experience-3532c1b41fd7 ,这样您才能把向正确的方向努力。


12. 沟通技能


寻找优秀数据科学家的企业需要可以将技术清楚地流畅地转化到非技术团队(比如市场营销或销售部门)中的成员。


数据科学家必须使企业能够通过为他们提供量化的结果来做出决策,并且必须了解他们的非技术同事的需求,以便应对由于数据产生的争议。


除了使用公司范围内的相通语言,您还需要使用数据讲故事来进行交流。作为一个数据科学家,您必须知道如何围绕数据创建一个故事线,以便于任何人理解。例如,呈现数据表不如以陈述故事的形式共享这些基于数据的洞察那么有效。使用讲故事将有助于您正确地向您的雇主传达您的成果。


在沟通时,请注意在数据分析中表述其结果和商业价值。大多数老板不想知道您分析了什么,他们感感兴趣的是数据分析结果将如何对业务产生积极作用。学会专注于通过沟通传递价值和建立持久的关系。

(参考:https://towardsdatascience.com/5-lessons-i-have-learned-from-data-science-in-real-working-experience-3532c1b41fd7 


13. 团队合作


数据科学家不能独自工作。您必须与公司高管合作制定战略,与产品经理和设计师合作创造更好的产品,与营销人员合作开展更好的转化活动,与客户和服务器软件开发人员合作创建数据管道和改进工作流。实际上,您必须与组织中的每个人,包括您的客户一起工作。


本质上,您将与您的团队成员合作开发用例,以了解解决问题所需的业务目标和数据。您将需要知道解决用例的正确方法,解决问题所需的数据,以及如何将结果翻译并呈现到每个相关人员都能容易理解的地方。


最后几点思考


感谢您的阅读。


如果您被所需的技能所震撼到,那就太好了(因为我也是!)。


在一天结束的时候,这些技能不一定要成为一个数据科学家,但它们肯定会使您不同于其他典型的数据科学家。


我知道您独一无二。


和以前一样,如果您有任何问题或意见,请随时在下面留下您的反馈,或者随时可以在LinkedIn上联系我。下一个帖子见!


原文链接:

https://towardsdatascience.com/top-13-skills-to-become-a-rockstar-data-scientist-faf2f97e655d

                                                                                              编辑:于腾凯

 

译者简介


640?wx_fmt=png

张睿毅北京邮电大学大二物联网在读。我是一个爱自由的人。在邮电大学读第一年书我就四处跑去蹭课,折腾整一年惊觉,与其在当下焦虑,不如在前辈中沉淀。于是在大二以来,坚持读书,不敢稍歇。资本主义国家的科学观不断刷新我的认知框架,同时因为出国考试很早出分,也更早地感受到自己才是那个一直被束缚着的人。太多真英雄在社会上各自闪耀着光芒。这才开始,立志终身向遇到的每一个人学习。做一个纯粹的计算机科学里面的小学生。

翻译组招募信息

工作内容:将选取好的外文前沿文章准确地翻译成流畅的中文。如果你是数据科学/统计学/计算机专业的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友,数据派翻译组欢迎你们加入!

你能得到:提高对于数据科学前沿的认知,提高对外文新闻来源渠道的认知,海外的朋友可以和国内技术应用发展保持联系,数据派团队产学研的背景为志愿者带来好的发展机遇。

其他福利:和来自于名企的数据科学工作者,北大清华以及海外等名校学生共同合作、交流。


点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派THU ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。


640?wx_fmt=png

640?wx_fmt=jpeg点击“阅读原文”拥抱组织

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
SQLAlchemy 是一个 SQL 工具包和对象关系映射(ORM)库,用于 Python 编程语言。它提供了一个高级的 SQL 工具和对象关系映射工具,允许开发者以 Python 类和对象的形式操作数据库,而无需编写大量的 SQL 语句。SQLAlchemy 建立在 DBAPI 之上,支持多种数据库后端,如 SQLite, MySQL, PostgreSQL 等。 SQLAlchemy 的核心功能: 对象关系映射(ORM): SQLAlchemy 允许开发者使用 Python 类来表示数据库表,使用类的实例表示表中的行。 开发者可以定义类之间的关系(如一对多、多对多),SQLAlchemy 会自动处理这些关系在数据库中的映射。 通过 ORM,开发者可以像操作 Python 对象一样操作数据库,这大大简化了数据库操作的复杂性。 表达式语言: SQLAlchemy 提供了一个丰富的 SQL 表达式语言,允许开发者以 Python 表达式的方式编写复杂的 SQL 查询。 表达式语言提供了对 SQL 语句的灵活控制,同时保持了代码的可读性和可维护性。 数据库引擎和连接池: SQLAlchemy 支持多种数据库后端,并且为每种后端提供了对应的数据库引擎。 它还提供了连接池管理功能,以优化数据库连接的创建、使用和释放。 会话管理: SQLAlchemy 使用会话(Session)来管理对象的持久化状态。 会话提供了一个工作单元(unit of work)和身份映射(identity map)的概念,使得对象的状态管理和查询更加高效。 事件系统: SQLAlchemy 提供了一个事件系统,允许开发者在 ORM 的各个生命周期阶段插入自定义的钩子函数。 这使得开发者可以在对象加载、修改、删除等操作时执行额外的逻辑。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值