博文翻译系列——如何入门数据科学 without spending a penny

转载请注明出处:https://blog.csdn.net/u011995719/article/details/120899558
博文翻译转载系列——基于“输入输出”学习方法,非直译的方式转载国外博文,取其精华去其糟粕转化为自己的语言,供大家学习交流。

原文:https://medium.com/@pranshumshr.04/how-i-learned-data-science-without-spending-a-penny-67d2ac5d04a1

译文:
博文翻译系列——How I learned Data Science without spending a penny.
看看我是如何不花一分钱学习数据科学相关知识

数据科学(Data Science)是很大的方向,想要学习数据科学,堪比登天(毕竟涉及太多的课程)。数据科学的学习需要很多预备知识,因此,想要掌握好数据科学,就需要有一个良好的计划。很多初学者不知道怎么学习,就会花费高昂的价格购买各种学习课程。而我是一个提倡自学的自学主义者,这里就介绍一些免费的自学资源给大家,包括好评如潮的免费资源。
先来看预备知识的学习资源:

数学与代码基础

  1. 线性代数(Linear Algebra): 线性代数的重要性不言而喻(通常大一就会上这门课),线代中需要了解向量和矩阵的概念及其基础操作,如点积(dot products)和矩阵乘法(matrix multiplication)等待。
    3Blue1Brown’s playlistEssence of Linear Algebra” is a really good resource to develop an intuition for Linear Algebra.
    You can also try the Mathematics for Machine Learning Specialization’s Course 1: Linear Algebra.

  2. 微积分(calculus):入门数据科学不需要深奥的微积分知识,只需要先了解基础的概念,如梯度下降法,它是机器学习重要的组成部分,也是神经网络的基石。
    Again 3Blue1Brown’s playlistEssence of Calculus” is a really good resource to develop an intuition for Calculus.
    Similarly, you can also try the Mathematics for Machine Learning Specialization’s Course 2: Multivariate Calculus.

  3. 统计学(statistics):统计学可以说是数据科学最重要的预备知识了,统计学、线代、微积分可以说是大学数学的三大基石,一般统计学是在大二上的课,线代和微积分大一就会上,不过即使不熟悉线代和微积分也能把统计学学好,不过这里不建议大家这么做。如果不了解统计学,那么就不能理解各种模型得出的结果。
    Krish Naik’s playlist: Statistics in Machine Learning. There’s also some content related to stats in his Feature Engineering playlist, but I would recommend going through it after you’ve learned some ML Basics.
    There are a lot of statistics courses on Coursera as well which you can try, but I think Krish Naik’s playlist is enough to get started.

  4. Python:数据科学领域中最热门的编程语言就是python,毕竟“人生苦短,我用Python”(Life is short,you need Python),python及其容易上手。python的基础语法非常简单,2天就可以学会,但是如果你把python想得那么简单那就太年轻了,python之所以强大是得益于它的各种工具包,因此除了python语法之外,还需要学习常用的工具包(工具库),如numpy, pandas, matplotlib, seaborn等。
    Again, Krish Naik’s python playlist cover’s everything from installing Anaconda to the libraries I mentioned above.
    Also, a bit of practice on Hackerrank wouldn’t hurt if you don’t already have a programming background.

机器学习与深度学习基础

线性代数、微积分、统计学和python就是你入门数据科学的前置知识了。接下来还有很多其他理论知识需要去学习,例如机器学习和深度学习里的各种算法概念,只要把前置知识学扎实了,相信你再看机器学习和深度学习的算法概念就会简单一些。

  1. 机器学习(Machine Learning):我(作者)在学习机器学习时就犯了一个大错误,这里分享给大家,千万别和我一样!一开始我是跳过机器学习直接学习深度学习的,很快就失去兴趣,因为很多内容看不懂,就容易打退堂鼓。因此建议大家先学习机器学习的基础知识,把基础打牢固之后再往后学习其他知识,这样会简单很多。虽然深度学习在众多领域的效果远超传统机器学习算法,但是在结构化数据中,机器学习算法仍然是首选。
    结构化数据和非结构化数据:结构化数据是指高度组织和格式整齐的数据,可以放入表格中的,如日期、财务金额、电话号码、地址等。非结构化数据就是不符合预定义的模型,它们存储于非关系数据库中。简单说,非结构化数据是字段可变的数据。常见的非结构化数据有:图像、视频、新闻稿、聊天信息等。
    You might have heard of the Machine Learning course by Andrew Ng on Coursera.
    There’s also Stanford’s CS229 Course on YouTube which is an in-depth version of the above course.
    And again there’s Krish Naik’s Machine Learning playlist which focuses more on the practical side of things.

  2. 深度学习(Deep Learning):深度学习相较于传统机器学习的优点在于它能端到端的完成任务,无需人工提取特征,减少了很多工作量,甚至是避免了传统机器学习无法提取有效特征的这一工作。传统机器学习是人工寻找特征,然后定义方法从原始数据中计算出这些特征,再进行分类、回归。但是,在非结构化数据中,很难发现通用的特征,这就使得任务难以完成,例如猫、狗图像二分类,人类如何定义一张图像中是猫呢?这个很难,毕竟可能的情况有太多种可能。而深度学习具备端到端的学习能力,可以自动的提取抽象特征用于分类。
    Again, Andrew NG’s Deep Learning Specialization course on Coursera is one of the best there is.
    There’s also Stanford’s CS230 Course on YouTube which is an in-depth version of the above course.
    Also, there’s Krish Naik’s Deep Learning playlist which focuses more on the practical side of things.

掌握以上知识(线性代数、微积分、统计学、python、机器学习、深度学习)后,就可以开始干项目了。根据任务的不同,又有很多子领域,如CV、NLP、DM等等,不同的领域又需要不同的基础知识要去学习,这里就先不吓唬大家了,关于CV、NLP、DM等知识后面有机会再给大家分享。

总结与建议

最后给几点建议,帮助大家更好的学习上述课程:

  1. 看视频时利用2倍速:不过不建议一开始就调整到2倍,而是从1.25倍开始慢慢递增。
  2. 在Coursera网站中选择旁听(the audit option)进行免费学习,不过这样是没有证书的。如果想要证书又承受不起钱包的压力,你还可以试试申请“助学金”(financial aid)。
  3. 好书推荐:DL by Ian Goodfellow, Pattern Recognition and ML by Christopher M Bishop, ML Engineering by Andriy Burkov, Approaching (Almost) Any Machine Learning Problem by Abhishek Thakur to name a few.
  4. 到Kaggle的Kernels和discussion中去学习,那里有代码、有理论、有实战技巧分享,强烈推荐大家到Kaggle中学习。
  5. 干、干、干,计算机是写代码的世界,数据科学有太多的理论知识,光学知识背算法没意义,一定
    要将你所学的知识用到实际项目中,学以致用,放码过来,才是最好的方式。

以上,祝好运,保持学习。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值