机器学习路线(转)

从图开始 

我相信这张图很多人看过,作者是Swami Chandrasekran,点击图片可以放大

这里要说的,是在MOOC中,怎么尽力完成这张图。也就是说有哪些MOOC和其中知识相关,让你通过上课的手段,逐渐接近成为一个数据科学家。

机器学习路线(转) - marsggbo - 火星教教主-marsggbo
 

 

Fundamentals 基础 

基础部分,主要是数学基础

其中矩阵,线性代数的只是可以学习课程 Coding the Matrix 布朗大学 
其中Hash的概念,二叉树,大O标记,可以学习课程 数据结构 清华大学 
其中关系代数,JSON,XML,可以学习课程 Introducation to Database 斯坦福大学 
其中关于基本的数据科学家环境搭建,可以学习课程 The Data Scientist’s Toolbox 约翰霍普金斯大学

这四门课基本上覆盖了基础的部分

Matrics & Linear Algebra Fundamentals 
Hash Functions, Binary Tree, O(n) 
Relational Algebra, DB Basics 
Inner, Outer, Cross, Theta Join 
CAP THEOREM 
Tabular Data 
Data Frames & Series 
Sharding 
OLAP 
Multidimensional Data Model 
ETL 
Reporting Vs BI Vs Analytics 
JSON & XML 
NoSQL 
Regex 
Vendor Landscape 
Env Setup

Statistics 统计 

统计方面课程非常多,不过基本上只有三个部分,概率的基础,统计知识,统计的应用

概率方面,可以学习台大的机率课程 机率 台湾大学 
也可以学习MIT的概率课程,不过比较难 Intro to Probability 麻省理工

其实有些统计课程也包含一些简单的概率知识,因为这俩不分家的,关于统计可以参考 
intro to statistic 伯克利 
Data Analysis and statistic inference 杜克大学 
Math biostatistics boot camp 1 约翰霍普金斯大学

这些课程基本覆盖统计部分的绝大部分所需知识

Pick a Dataset(UCI Repo) 
Descriptive Statistics(mean, median, range, SD, Var) 
Exploratory Data Analysis 
Histograms 
Percentiles & Outliers 
Probability Theory 
Bayes Theorem 
Random Variables 
Cumul Dist Fn(CDF) 
Continuos Distributions(Normal, Poisson, Gaussian) 
Skewness 
ANOVA 
Prob Den Fn(PDF) 
Central Limit THeorem 
Monte Carlo Method 
Hypothesis Testing 
p-Value 
Chiz Test 
Estimation 
Confid Int(CI) 
MLE 
Kernel Density Estimate 
Regression 
Convariance 
Correlation 
Pearson Coeff 
Causation 
Least2 fit 
Eculidean Distance

Programming 编程 

编程主要是R和python编程,这两个语言也是数据科学家最常用的语言

python的课程可以选择的非常多 
可以先试试学习 Introduction to Computer Science and Programming Using Python 麻省理工 
也可以考虑看看 An Introduction to Interactive Programming in Python 莱斯大学 
实际上之前在基础门类里的 Coding the Matrix 布朗大学 也有python的入门教学

R语言的课程更是多 
R language 约翰霍普金斯大学 
Intro to Data science 华盛顿大学 
Data Analysis and statistic inference 杜克大学 也可以作为不错的R语言入门 
Getting and Cleaning Data 约翰霍普金斯大学 中有很多关于使用R语言获取和处理数据的知识

Python Basics 
Working in Excel 
R Setup, R studio 
Varibles 
Vectors 
Matrices 
Arrays 
Factors 
Lists 
Data Frames 
Reading CSV Data 
Reading Raw Data 
Subsetting Data 
Manipulate Data Frames 
Functions 
Factor Analysis 
Install Pkgs

Machine Learning 机器学习 

机器学习的课程,首先推荐的就是Andrew Ng的Machine Learning 斯坦福大学 
然后是林老师的机器学习基石 台湾大学 
或者Yaser S. Abu-Mostafa的Learning from data,Abu-Mostafa老师和林老师是师徒关系,这两门课大纲基本一直,不过Abu-Mostafa老师的内容丰富一点

如果说全面,Udacity上机器学习的三部曲可能是最全面的: 
Machine Learning: Supervised Learning 乔治亚理工 
Machine Learning: Unsupervised Learning 乔治亚理工 
Machine Learning: Reinforcement Learning 乔治亚理工

What is ML? 
Numerical Var 
Categorical Var 
supervised Learning 
Unsupervied Learning 
Concepts, Inputs & Attributes 
Traning & Test Data 
Classifier 
Prediction 
Lift 
Overfitting 
Bias & Variance 
Trees & Classification 
Classification Rate 
Decision Tress 
Boosting 
Naive Bayes Classifiers 
K-Nearest Neighbour 
Logistic Regression 
Ranking 
Linear Regression 
Perceptron 
Hierarchical Clustering 
K-means Clusterning 
Neural Networks 
Sentimeter Analysis 
Collaborative Fitering 
Tagging

Text Mining / NLP 文本挖掘,自然语言处理 

关于自然语言理解的课程在MOOC上比较少 
coursera上的Natural Language Process可能不会开新一期了,不过也可以期待 
Intro to Data science 华盛顿大学曾经稍微讲过一点NLP的词袋法之类非常简单的 
在这里Support Vector Machine可以查看上面机器学习的课程,Ng的课程,Yaser的课程都有所提及

Corpus 
Named Entity Recognition 
Text Analysis 
UIMA 
Term Document Matrix 
Tern Document Matrix 
Term Frequency & Weight 
Support Vector Machines 
Association Rules 
Market Based Analysis 
Feature Extraction 
Using Mahout 
Using Weka 
Using NLTK 
Classify Text 
Vocabulary Mapping

Visualization 可视化 

在约翰霍普金斯的data science speciallization里面穿着讲了一些画图的做法,重点在课程Exploratory Data Analysis 约翰霍普金斯中 
Data Analysis and statistic inference 杜克大学 也讲了一些绘图,基本上就覆盖了大多数需要做图的情况 
至于Decision Tree(决策树)的概念可以在Machine Learning: Supervised Learning 乔治亚理工里面找到,在其他一些关于统计的课程,例如Intro to Data science 华盛顿大学里面也有

Data Exploration in R(Hist, Boxplot etc) 
Uni, Bi & Multivariate Viz 
ggplot2 
Histogram & Pie(Uni) 
Tree & Tree Map 
Scatter Plot (Bi) 
Line Charts (Bi) 
Spatial Charts 
Survey Plot 
Timeline 
Decision Tree 
D3.js 
infoVis 
IBM ManyEyes 
Tableau

Big Data 大数据 

Intro to Data science 华盛顿大学 讲了mapreduce的基本概念 
最近开课的Mining Massive Data评价很高,建议上 
Udacity的Into to Haddop and mapreduce可能更偏向实用,不过实际上比较短,并不详细

Map Reduce Fundamentals 
Hadoop Components 
HDFS 
Data Replication Principles 
Setup Hadoop (IBM/Cloudera/HortonWorks) 
Name & Data Nodes 
Job & Task Tracker 
MIR Programming 
Sqoop: Loading Data in HDFS 
Flue, Scribe: For Unstruct Data 
SQL with Pig 
DWH with Hive 
Scribe, Chunkwa For Weblog 
Using Mahout 
Zookeeper Avro 
Storm: Hadoop Realtime 
Rhadoop, Phipe 
rmr 
Classandra 
MongoDB, Neo4j

Data Ingestion 数据获取 

这部分比较形式,我个人认为经验成分很重,没有绝对相关的MOOC 
Getting and Cleaning Data 约翰霍普金斯大学 中稍微涉及了一些数据可能的获取

Summary of Data Formats 
Data Discovery 
Data Sources & Acquisition 
Data Integration 
Data Fusion 
Transformation & Enrichament 
Data Survey 
Google OpenRefine 
How much Data 
Using ETL

Data Munging 数据清理/数据转换 

Getting and Cleaning Data 约翰霍普金斯大学 提到了一些数据处理 
Machine Learning 斯坦福大学中也提到过数据标准化,特征提取问题 
基本这部分知识都可以通过上完机器学习那部分课程的内容来获取

Dimensionality & Numerosity Reduction 
Normalization 
Data Scrubbing 
Handling Missing Values 
Unbiased Estimators 
Binning Sparse Values 
Feature Extraction 
Denoising 
Sampling 
Stratified Sampling 
Principal Component Analysis

Toolbox 工具箱 

路漫漫~~漫漫~~漫~~~~

MS Excel w/ Analysis Toolpak 
Java, Python 
R, Rstudio, Rattle 
Weka, Knime, RapidMiner 
Hadoop Dist of Choice 
Spark, Storm 
Flume, Scibe, Chukwa 
Nutch, Talend, Scraperwiki 
Webscraper, Flume, Sqoop 
tm, RWeka, NLTK 
PHIPE 
D3.js, ggplot2, Shiny 
IBM Languageware 
Cassandra, MongoDB>



原文:在MOOC上的数据科学家养成计划 路线图 Roadmap

转载于:https://www.cnblogs.com/marsggbo/p/6622922.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值