你也可以成为数据科学家

最新推荐文章于 2021-02-15 09:55:19 发布

数据工程与机器学习

最新推荐文章于 2021-02-15 09:55:19 发布

阅读量176

点赞数

分类专栏：数据分析 python 文章标签：大数据人工智能机器学习 python r语言

本文链接：https://blog.csdn.net/weixin_42731853/article/details/107720120

版权

python 同时被 2 个专栏收录

56 篇文章 5 订阅

订阅专栏

数据分析

8 篇文章 3 订阅

订阅专栏

随着大数据时代的到来，一个新的职业悄然崛起：数据科学家。他们负责分析数据，建立模型，预测未来。在医疗领域，数据科学家利用机器学习模型预测病人患癌的概率；在银行业，数据科学家预测贷款者会还款还是违约；在零售领域，数据科学家试图预测未来3个月的产品销量。类似的例子不胜枚举，简单来说，数据科学正以迅雷不及掩耳之势席卷各个行业，每个公司都试图招聘相关的人才来优化商业模型。

在普通人看来，数据科学家这个职业似乎高深莫测，让人可望而不可即，但现实情况并非如此。根据我们的经验，任何人都可以经过刻意训练成为优秀的数据科学家，就像在其它任何领域（运营，开发，市场营销岗位），只要投入足够的时间和精力，都可以成为该领域的高手。

本文将根据我们团队的经验，向大家介绍一些学习数据科学的方法，最后给出我们认为非常有价值的学习资源链接。

学习基础数学

对大多数人来说，数学很烦人，但是在这个领域中非常重要。为了在数据科学领域获得成功，基础数学知识必不可少，例如掌握概率论和线性代数。根据最终的目标，掌握知识的深浅也不一样，如果你的目标是应用机器学习模型解决现实问题（我称为他们为实践者），掌握基础的数学概念已经足够，不需要深入到模型背后的数学推导，也不需要重新实现复杂的算法，大多数编程语言已经有工具实现复杂的模型，而且效率非常高。掌握基础概念的好处在于，您不仅可以更好的理解模型的运行原理，还可以理解研究人员撰写的最新文献，建模时往往需要参考最新的文献。

学习编程

数据科学家要使用编程语言完成工作，最常用的语言是Python，R，Java/Scala，Julia和SQL。

如果您付出时间坚持学习，很容易掌握这些工具。
他们让您用更少的代码做更多的事情，尤其是Python和R。
他们都有一个良好和活跃的社区，当您遇到问题时可以在社区里获得帮助。
他们有完善的生态系统，有大量成熟的三方库使用，不用自己造轮子。
他们是开源的，可以免费使用。

最好学习一门以上的语言，但掌握好节奏，根据自身情况制定学习计划。建议新手从Python开始，因为Python相对容易，开发效率非常高，能同时适应研究和生产阶段的需求。如果您是传统的研究人员（熟练使用excel, SAS, matlib），可以学习R，这是统计领域最强大的工具。SQL非常重要，Pyhon和R虽然能够处理数据和建模等任务，但必须先获取数据，大多数企业的数据都存储在关系型数据库，所以SQL不可或缺。

如何获取数据

数据不会直接出现在你面前，有时根本没有数据，但是无论如何都必须找到一种获取数据的方法。获取数据并不直接意味着挖掘数据，它是数据挖掘下的一个过程。可以在网络上的许多地方获得免费和开源的数据（善用所有引擎），有时可能不得不从网站上抓取数据。网络爬虫非常重要，希望所有人花时间学习爬虫，数据科学家的职业生涯肯定会写脚本爬取相关数据。数据也可能保存在数据库中，所以数据科学家需要了解一些数据库管理知识，以便能够连接到数据库并直接从数据库进行工作。

学习如何处理数据

这通常称为数据整理。这个过程涉及到清洗数据和探索性分析（EDA）。该过程还涉及将您拥有的数据构造为方便使用的格式。这个阶段是从事数据科学，人工智能或机器学习项目中最疲惫的部分（占据80%的时间）。在学习过程中，您将使用的大多数示例数据都已经过预处理，但是现实世界中的数据可能没有经过任何处理。作为一个渴望在数据科学领域有所建树的新手，必须刻意练习如何处理现实世界的数据。

学习如何可视化数据

作为数据科学家，不一定意味着您的团队中的每个人都将能够理解您所在领域的技术或能够从原始格式的数据中进行推断。这就是为什么需要学习数据可视化的原因。数据可视化是指以图形形式展示数据的过程，目的是让任何人，无论他们是否具备相关的专业知识，都可以理解数据的含义。有许多种可视化数据的方法，作为程序员，编写代码来实现可视化是首选方法，因为这是快速且高效。Python程序员可以使用Matplotlib，Seaborn和Bokeh，R程序员可以使用ggplot2。可视化数据的另一种方法是使用诸如Tableau之类的付费工具。

人工智能和机器学习

人工智能和机器学习更像是数据科学的子集，因为它们由数据驱动。他们指的是训练机器或其他无生命物体所涉及的过程，即通过向它们提供经过良好处理的数据来使其表现得像人。通过逐步教授和指导机器，可以教机器去做人类可以做的许多事情。在这种情况下，将机器想象为完全没有知识，但逐渐学会识别物体，说话，从错误中学习并变得更好的婴儿。

AI和ML基本上是通过使用复杂的算法来赋予机器生命。人工智能和机器学习的全部潜力仍然未知，这是一个不断进化的领域。目前AI和ML被广泛用于认知功能，例如对象检测和识别，面部识别，语音识别和自然语言处理，欺诈和垃圾邮件检测等。

学习如何部署模型

数据科学的最终目的是解决现实问题，当你建立了一个模型后，最终会做成产品，供用户使用。这个过程往往被称为生产阶段，与专注于数据清洗，建模和评估模型性能的研究阶段不同。创建网页app是当前最常见的部署方式，传统的开发方式一般需要一个前端（HTML, CSS, Javascript），一个后端（Python，Java，php）共同完成。但开源社区已经涌现了很多新的工具来解决这些问题，即便你不懂HTML等前端知识，也可以快速搭建一个网页应用，向世界呈现你的成果。例如Python streamlit, R shiny等工具可以帮助研究员快速创建美观的网页App。