通过本Rogojan最初发布在这里
今天,我们想涵盖一些我们最喜欢的数据科学资源。 如标题所示,这些资源将是免费的。 有些人喜欢买书,有些人则喜欢在线课程。 因此,我们创建了此数据资源列表,其范围从书本到课程,从免费到没有。
数据科学有很多方面。 统计信息,数据清理,编程,系统设计以及实际上……几乎所有与数据相关的其他信息,取决于公司的规模。
这篇文章将讨论我们最喜欢的这些主题资源。 现在,这些课程和书籍中的大多数都是有关统计学,Python和数据科学等主题的入门。 他们确实只会提供基础知识。 归根结底,真正的实践经验是可以真正训练您的数据科学知识的几件事。 您应该从这些资源中学习尽可能多的知识,然后申请尽可能多的实习和入门级职位,并进行面试。
您不仅会学到技术知识,而且会学到更多。 您还将获得很多业务经验。
这样,让我们开始吧!
免费统计课程
让我们开始学习/复习基本的统计概念。 你们中的许多人可能上过大学的一两个统计学课程。 但是您可能不会清楚地记住所有内容,因此从一开始就进行回顾是一个好主意。
尝试开始采用复杂的统计概念和模型可能很诱人。 但是大多数算法和模型都需要某种准确性和假设检验。 这意味着您实际上需要能够理解诸如p检验与现值,z统计与t统计,ROC与AUC,随机变量等概念。
这些似乎都是基本概念,也许您还记得这些话。 但是,我们发现它们经常被人们遗忘,因为我们中的许多人更加专注于学习如何在python和R vs基本统计中实现模型。 尽管这两个概念不一定都相互依赖。 您可以开始假设您了解以任何一种语言运行模型时p值的含义,而没有完全掌握它的重要性。
统计课程
1.汗学院
这就是为什么我们建议至少回过头来浏览可汗学院的统计资料部分。 它们涵盖了假设检验 , T统计量与Z统计量 , 置信区间等概念。
可汗始终是一个很好的起点,因为视频是视觉和音频示例的完美结合。
就个人而言,就纯统计而言,我们没有太多喜欢的书。 在此资源列表的R编程部分中,我们将参考我们最喜欢的R + Statistics书籍。
2.杜克大学课程
对于免费的完整课程,您可以尝试杜克大学统计课程 。 实际上,这是几门课程,涵盖了各种统计数据,例如古典与贝叶斯统计。 有两种不同的方法值得研究。
Python视频,书籍和课程
Python是一个有趣的话题。 关于python的问题是编程语言有如此多的合理子节。 例如,当我们准备面试时,我们总是想弄清楚我们将要处理哪种类型的python问题。 是否会问我们一些问题,这些问题的重点是可操作的,分析的,基于优化的,算法和数据结构或可能的数据科学算法。 所有这些都是具有不同面试问题样式的不同主题。 提出有关如何遍历二叉树的问题与必须实施决策树算法有很大不同。
作为数据科学家,通常您将从python的分析和操作方面受益。 操作部分将使您能够使无聊的东西自动化 (<-3。,正如陈词滥调书的标题 )。
本书非常适合……任何以数据为中心的人。 数据科学家,业务分析师,商业智能工程师和数据库开发人员都可以从自动化中受益。 现在,您无需使用python,如果您在Windows环境中,则必须对PowerShell Linux进行猛烈抨击。 学习某种形式的脚本语言有助于改善工作流程和设计思维。
一旦您对python普遍感到满意,那么学习Pandas就变得容易得多。 Pandas是一种数据处理语言,可让您对数据集运行转换和基本分析。 我们的建议之一是,作为用户,您需要考虑Pandas在何处提供价值与SQL。 通过SQL使用Pandas并非总是有益的。 这可能有很多原因。 如果您在计算机上运行的Jupyter笔记本中运行Pandas,则您正在执行的任何数据处理都将在计算机的有限内存中进行。
大多数大型公司或至少是科技公司都将使用某种形式的云计算来运行Jupyter Notebook。 尽管如此,python并不总是最适合快速数据转换的工具。 我们已经看到有人在python中开发了date_diff函数,该函数花了5分钟才能运行一百万行,而如果他们在SQL中运行它,则可能要花1秒。 这是一个重要说明,因为可以想象如果不是100万行,而是10亿行。 那就是运行时间增加了1000倍(好吧,计算并不是那么简单,但要点……要长得多)。
熊猫仍然占有一席之地,对于准备和分析数据非常有用。 以下是熊猫的一些实用资源:
免费熊猫Python视频
4.熊猫脚踏实地的解释
Sentdex是一个很棒的youtube,他确实使python变得简单。 除了熊猫,他还为多个主题创建了python教程。 但是我们非常感谢他脚踏实地的风格。 他假设您从零地面开始,然后从零开始建造。
这就是我们认为他的视频可能是Youtube上一些最有效的视频教程的原因。 另外,他的风格很容易效仿。
5.专业人士-使用Panda进行Python数据分析
我们想分享由弗兰克·凯恩(Frank Kane)创建的免费Udemy视频。 您将看到我们再几次引用该教师。 他是最专业的课程创建者之一。 现在,该视频是免费的。 但是,弗兰克·凯恩(Frank Kane)确实制作了许多我们付费并喜欢的高质量课程。 他开设了从初学者到免费提供python和许多其他现代技术概念的课程。 他还为Python和机器学习编写了一本书
最后,我们没有很多长视频。 通常,一次观看一个小时通常很困难。 我们喜欢并想分享一个。 如果您只是入门,并且想在Pandas上学习速成课程,请查看下面的视频。 我们对以下视频的一句话是,请确保您更改视频质量。 对于我们来说,它开始可怕,直到您将其转换为720p。
Python书籍
我们没有很多免费的在线图书可供Pandas使用。 因此,在这种情况下,我们将推荐您可以在亚马逊或O'Reily进行10天免费试用的书籍。 实际上,这至少是找到您可能喜欢购买的书的好方法!
在这里,经典不会错
7. Python进行数据分析 。
来自亚马逊的图片
它涵盖了所有基础知识,例如数据聚合和时间序列,同时通过基本的python练习来帮助您学习如何将Pandas应用于实际问题。 这是我们在书本或课程中寻找的特征之一。 我们倾向于需要可以应用我们的技能的实际问题。 它使框架和解决问题变得更加容易。
正如它指出的那样,这本书确实将带您了解“在Python中操作,处理,清理和处理数据的要点”。 这些技能对于数据科学家至关重要,因为您的大部分时间都将集中在清理和处理数据上。
这可能是我们推荐的少数几本熊猫书之一。 我们还将很快将许多其他数据科学和机器学习书籍添加到此列表中。 但是,我们所推荐的书中并没有太多关于熊猫的书。
机器学习和数据科学Python
熊猫具有许多基本的分析功能。 它汇总并运行基本的描述性统计过程。 为了做到轻松应用更多高级模型。 您将需要学习Scikit学习。 现在,我们……这么说。 仅仅学习库的工作原理并不能使您成为一名机器学习工程师。 它是要了解的重要库之一,因为它包含了科学家将在python中使用的大多数模型数据。
同样,Sentdex拥有大量实用的教程。
8. Sentdex机器学习
Sentdex已经存在了一段时间,所以对于较新的内容,您可以查看Simplilearn。 它有一些较新的视频,他们在深入研究方面做得很好。 我们确实希望他们能获得更好的音频质量,但除此之外,它还是一整套用于学习Scikit学习的视频。
9. Simplilearn —使用Python进行机器学习
Python机器学习书籍建议
对于书籍,我们建议使用“ 10. Python机器学习食谱:从预处理到深度学习的实用解决方案” 。
来自亚马逊的图片
本书将从线性回归和KNN等主题入手,然后深入探讨诸如神经网络之类的深度学习概念。 同样,与其他许多O'Reilly书籍一样,它有很多很好的实际例子,都得到了很好的解释。
Python机器学习课程
如果您正在寻找一门课程,有两种选择。
同样, 11. 弗兰克·凯恩(Frank Kane)在这个主题上还有另一门很棒的课程 ,他将介绍的内容比上述书籍还要多。 他还将讨论合奏学习和偏向权衡。 另外,如果您是视觉学习者,这可能会使您受益更多。 还有一整节关于Apache Spark的机器学习的知识,它使您可以将这些技术扩展到在计算集群上分析的“大数据”。
另一门很棒的课程是12. 机器学习AZ™:动手学习Python和R in Data Science 。 这门课程是综合性课程,同时讨论Python和R。这不仅是针对Scikit学习,而且是一般的机器学习。 此外,本课程的创建者是SuperDataScience.com的所有者。这是一个很棒的网站,提供播客,课程等信息。 因此,如果您不想为课程付费,则可以随时免费收听播客!
当然,Python并不是数据科学的唯一语言。 另一种流行的语言是R(而且,这不是唯一的两种语言,人们喜欢使用其他语言……除了Matlab ..我们不谈论Matlab)。
在R中编程视频和书籍
现在总是存在关于学习R或python的语言的讨论。 可能有数百篇博客文章为其中一项争论。 在接下来的几年中,这种争论可能会持续下去,直到出现下一门有关数据科学的热门语言。 事实是,作为数据科学家,这完全取决于您加入的公司/团队。 有些人可能使用R,有些人将使用Python,其他人可能会使用其他语言。 这完全取决于应用程序,知识库以及较大组织中团队的职能。
R受到数据科学家的喜爱或憎恨。 对于大多数数据科学家而言,将其实施到生产中可能会更加困难,并且通常扮演着更多的研究角色。 这并不是说它更糟或更不实用。 对于大多数人来说,Python只会变得更容易,因为他们可能已经将其用于其他自动化过程。 因此,与学习新语法相比,工程师可能要做的就是更多地了解数据科学和一些库。
但是,那些从R开始的人都喜欢它。 R实际上非常容易使用,并且在Jupyter笔记本电脑问世之前已经变得更像Jupyter笔记本电脑了。
它可以逐行运行,并允许您立即查看输出。 此外,很容易知道要为每个函数添加什么参数,如果您很聪明并且已经使用SQL正确设置了数据,则只需几行代码即可运行模型。
对于R书籍,您可以阅读经典而老套的书13。 《统计学习入门:R中的应用程序免费在线提供! 如果您问任何数据科学家什么是他们最喜欢的书,那几乎可以肯定是其中一本(即使他们没有读过)。 现在,如果您真的想买这本书,请继续:)。
另一本经典的14. R Cookbook:经验证的数据分析,统计和图形食谱 。 这是一本很棒的入门书,因为它实际上只涉及深度线性回归,图形和时间序列分析。 讨论了其他几个主题,但它们不像上面提到的主题那样注重统计或深度。 这本书的价值仍然很高! 实际上,我们建议您先阅读统计资料,然后阅读本书,然后阅读R中的统计学习入门(现在我们需要为下一篇文章创建学习指南)。
R编程免费视频
我们最喜欢的R入门视频之一是Global Health与Greg Martin制作的。 格雷格(Greg)创作的视频非常有趣且有趣。.令人讨厌的是,它实际上是该频道上唯一专注于R的视频……但这对任何希望从R入手的人来说都是一个很好的入门。
15. R初学者编程
现在,如果您正在寻找更完整的教程,则可以观看有关数据分析的David Langers R教程。 它不那么有趣,而同样有用。 总共有7个视频,因此您将很好地理解R以及如何使用它来分析数据。
R和数据分析导论
16.带有R的数据科学导论第1部分
R程序设计课程
从R的有组织课程的角度来看,很棒的地方是有很多。 实际上, 17. John Hopkins在Coursera上免费提供了数据专业证书。 如果您想学习R和良好的数据分析实践,我们建议您这样做。 这是学习R的另一个很好的入门。
现在,如果您希望选择付费课程,那么SuperDataScience再提供一门很棒的课程。 您将涵盖所有重要主题,例如数据框架和ggplot2(可以说是R中最常用的库之一)。 您将始终需要一种显示数据的方法。
除了R和Python外,您还需要学习另一种“语言”。 我们使用引号是因为SQL并没有真正提供Python或R的相同功能。它实际上只是一个用于与数据库引擎接口的层。 SQL仍然代表结构化查询语言。
SQL书籍,视频和课程
在某些新手训练营中,SQL可能没有得到广泛的讨论,但它仍然是数据科学家必须具备的技能。 在SQL vs Pandas中准备大多数数据集通常要容易得多。 这还可以帮助数据科学家与数据工程师进行交流,以帮助他们开发他们需要的分析表和数据管道,以便更有效地运行模型。
即使在HDFS和其他分布式数据系统领域,SQL仍然是一项非常有价值的技能。 这些现代数据系统(例如Hadoop)在其顶部具有Presto和Hive层,这使您可以使用SQL与Hadoop交互,而不是Java或Scala。 SQL是数据的语言,它使数据科学家和数据工程师可以轻松地在系统之间操纵,转换和传输数据。 与编程不同,所有数据库之间的编程几乎相同。 有些决定已经做出了巨大的改变。 总体而言,即使在当今形势下,SQL还是值得学习的。
SQL提供了大量在线课程,书籍和备忘单,您可以阅读。 老实说,作为数据科学家,您不需要从基础知识中学习太多。
我们最喜欢的猫头鹰之一。 我们在成为数据工程师职位所需的技能中提到了这一点。 但是我们认为我们会再推荐他们一次!
19.免费的SQL查询基础
如果您有兴趣学习一些基于传统关系数据库的更复杂的查询,那么这是明智的猫头鹰的另一系列文章。
20. SQL过程与程序设计
SQL非免费课程
好吧,对于那些对课程感兴趣的人吧。
这里的困难之处在于描述各种SQL层。 有MySQL,Oracle,SQL Server Postgres,Redshift(多种),Presto(再次……多种)。 实际上,Presto的优点在于它可以位于MySQL和其他数据库引擎之上。 目前,我们喜欢的课程是。
是的,标题没有提到数据科学,但这没关系。 这里的目的是学习如何使用SQL来回答业务问题。 老实说,无论如何,SQL通常不是数据科学的“数据科学”部分发生的层。
通常,SQL更适用于数据清理,联接表和基本聚合。 因此,本课程非常适合学习该课程。 本课程更适合初学者。 前几节主要侧重于配置,而对复杂的SQL并不太重。 但是,在继续学习过程中,您将学习一些重要的主题,例如自连接和子查询。
奖励-Tableau中还有一些快速项目!
SQL书籍
就SQL书籍而言。 我们相信,更多的实际例子可以提供更好的结果。 特别是如果他们不仅仅尝试计算从客户那里购买的平均商品。 因此,在这种情况下,我们建议
关于本书的一点是它是针对Postgresql的。 如果您希望使用更传统的数据库,可以查看23. 学习SQL:Master SQL基础知识 。 我们喜欢《实践SQL》一书的事实是,它在介绍基础知识方面非常出色,然后可以帮助您将这些基础知识应用于一些更复杂的问题。 此外,学习一些Postgres以及观看一些有关SQL Server或MySQL的视频确实可以为您提供良好的基础。 您将能够开始区分各种系统的优缺点。 这对于数据科学家来说价值不高,但是如果您成为一名工程经理,需要像整个公司/团队所基于的数据库系统一样做出决策,那将非常重要。
职业建议和案例研究
除了Python,Statistics和R等所有基础知识之外,还可以观看高层项目的示例以及一般的职业建议,这非常好。
例如,我们在YouTube上最喜欢的高级商业案例视频之一是关于Netflix预测内容需求。 他们在讨论问题,谈论需要解决的问题,如何处理数据等方面做得非常出色。这对于年轻的数据科学家来说非常有用,因为它可以帮助您了解整个过程。 当年轻的工程师/数据科学家开始工作时,可能很想跳入一个项目。 但是,像这样的视频演示了数据科学家在解决问题之前如何思考问题。
24. 30分钟内的数据科学:预测Netflix的内容需求
下一个视频非常适合设定期望。 它们涵盖了如何成为一名优秀的数据科学家,以及数据科学家面临的一些问题,薪水等。现在,您将听到来自任何数据科学家的许多陈词滥调。 垃圾中的垃圾,每个公司对数据科学家的看法都不一样,如果您为一家初创公司工作,那么数据科学,机器学习和大数据有时可能会融合在一起。 如果您刚接触该领域,这些似乎不是陈词滥调,但是如果您已经从事数据科学家工作了几年,您就会习惯这些答案。
您是否需要帮助来改善自己的职业,而不仅仅是技能? 基雷尔有很多很棒的视频。 特别是,下面的视频讨论了如何提高您作为数据科学家的职业,而不仅仅是通过学习更多算法。 他经历并采访了许多不同的数据科学家,并从他们中获得了职业建议,并以他们的最佳技巧制作了该视频。
26.如何改善您的数据科学职业— KIRILL EREMENKO
正如我们在一开始所说的。 使用这些免费和非免费资源只是成为数据科学家的一小部分。 最好的学习方法是找到数据科学家的工作。 如果您还有时间,请实习。 这是下面视频的第一技巧,也是我们的技巧。 我们中的一些人为获得第一份工作而苦苦挣扎,因为我们没有得到实习,而不得不吸收它并获得较低级别的入门工作,直到我们有足够的经验来担任更注重技术的职位为止。 因此我们可以肯定第一个技巧!
我们本来打算读一些有趣的,技术性较低的书籍,但我们认为该列表暂时足够长!
我们希望您喜欢这些免费的资源列表,以供那些希望专门研究数据科学甚至其他数据库主题的人员使用。 有很多需要介绍的地方,我们希望您不要被淹没。 一次选择一两个课程或书籍。 阅读,学习并理解它,然后跳出下一个。 这将帮助您进行数据科学之旅。 购买每本书并开始每门课程可能很诱人,但是那样的话您很可能永远不会完成其中的任何一本书(除非您有出色的纪律)。
因此,花点时间享受这一过程。 我们可能不得不再列出一个列表,以进一步列出其他有价值的主题。 此外,如果您想在创建新内容时首先了解我们的新内容,请确保注册我们的电子邮件列表或通过我们的联系页面与我们联系!
如果您想阅读更多有关数据科学的文章,请查看下面的链接!