从图开始
我相信这张图很多人看过,作者是Swami Chandrasekran,点击图片可以放大
这里要说的,是在MOOC中,怎么尽力完成这张图。也就是说有哪些MOOC和其中知识相关,让你通过上课的手段,逐渐接近成为一个数据科学家。
Fundamentals 基础
基础部分,主要是数学基础
其中矩阵,线性代数的只是可以学习课程 Coding the Matrix 布朗大学
其中Hash的概念,二叉树,大O标记,可以学习课程 数据结构 清华大学
其中关系代数,JSON,XML,可以学习课程 Introducation to Database 斯坦福大学
其中关于基本的数据科学家环境搭建,可以学习课程 The Data Scientist’s Toolbox 约翰霍普金斯大学
这四门课基本上覆盖了基础的部分
Matrics & Linear Algebra Fundamentals
Hash Functions, Binary Tree, O(n)
Relational Algebra, DB Basics
Inner, Outer, Cross, Theta Join
CAP THEOREM
Tabular Data
Data Frames & Series
Sharding
OLAP
Multidimensional Data Model
ETL
Reporting Vs BI Vs Analytics
JSON & XML
NoSQL
Regex
Vendor Landscape
Env Setup
Statistics 统计
统计方面课程非常多,不过基本上只有三个部分,概率的基础,统计知识,统计的应用
概率方面,可以学习台大的机率课程 机率 台湾大学
也可以学习MIT的概率课程,不过比较难 Intro to Probability 麻省理工
其实有些统计课程也包含一些简单的概率知识,因为这俩不分家的,关于统计可以参考
intro to statistic 伯克利
Data Analysis and statistic inference 杜克大学
Math biostatistics boot camp 1 约翰霍普金斯大学
这些课程基本覆盖统计部分的绝大部分所需知识
Pick a Dataset(UCI Repo)
Descriptive Statistics(mean, median, range, SD, Var)
Exploratory Data Analysis
Histograms
Percentiles & Outliers
Probability Theory
Bayes Theorem
Random Variables
Cumul Dist Fn(CDF)
Continuos Distributions(Normal, Poisson, Gaussian)
Skewness
ANOVA
Prob Den Fn(PDF)
Central Limit THeorem
Monte Carlo Method
Hypothesis Testing
p-Value
Chiz Test
Estimation
Confid Int(CI)
MLE
Kernel Density Estimate
Regression
Convariance
Correlation
Pearson Coeff
Causation
Least2 fit
Eculidean Distance
Programming 编程
编程主要是R和python编程,这两个语言也是数据科学家最常用的语言
python的课程可以选择的非常多
可以先试试学习 Introduction to Computer Science and Programming Using Python 麻省理工
也可以考虑看看 An Introduction to Interactive Programming in Python 莱斯大学
实际上之前在基础门类里的 Coding the Matrix 布朗大学 也有python的入门教学
R语言的课程更是多
R language 约翰霍普金斯大学
Intro to Data science 华盛顿大学
Data Analysis and statistic inference 杜克大学 也可以作为不错的R语言入门
在Getting and Cleaning Data 约翰霍普金斯大学 中有很多关于使用R语言获取和处理数据的知识
Python Basics
Working in Excel
R Setup, R studio
Varibles
Vectors
Matrices
Arrays
Factors
Lists
Data Frames
Reading CSV Data
Reading Raw Data
Subsetting Data
Manipulate Data Frames
Functions
Factor Analysis
Install Pkgs
Machine Learning 机器学习
机器学习的课程,首先推荐的就是Andrew Ng的Machine Learning 斯坦福大学
然后是林老师的机器学习基石 台湾大学
或者Yaser S. Abu-Mostafa的Learning from data,Abu-Mostafa老师和林老师是师徒关系,这两门课大纲基本一直,不过Abu-Mostafa老师的内容丰富一点
如果说全面,Udacity上机器学习的三部曲可能是最全面的:
Machine Learning: Supervised Learning 乔治亚理工
Machine Learning: Unsupervised Learning 乔治亚理工
Machine Learning: Reinforcement Learning 乔治亚理工
What is ML?
Numerical Var
Categorical Var
supervised Learning
Unsupervied Learning
Concepts, Inputs & Attributes
Traning & Test Data
Classifier
Prediction
Lift
Overfitting
Bias & Variance
Trees & Classification
Classification Rate
Decision Tress
Boosting
Naive Bayes Classifiers
K-Nearest Neighbour
Logistic Regression
Ranking
Linear Regression
Perceptron
Hierarchical Clustering
K-means Clusterning
Neural Networks
Sentimeter Analysis
Collaborative Fitering
Tagging
Text Mining / NLP 文本挖掘,自然语言处理
关于自然语言理解的课程在MOOC上比较少
coursera上的Natural Language Process可能不会开新一期了,不过也可以期待
在Intro to Data science 华盛顿大学曾经稍微讲过一点NLP的词袋法之类非常简单的
在这里Support Vector Machine可以查看上面机器学习的课程,Ng的课程,Yaser的课程都有所提及
Corpus
Named Entity Recognition
Text Analysis
UIMA
Term Document Matrix
Tern Document Matrix
Term Frequency & Weight
Support Vector Machines
Association Rules
Market Based Analysis
Feature Extraction
Using Mahout
Using Weka
Using NLTK
Classify Text
Vocabulary Mapping
Visualization 可视化
在约翰霍普金斯的data science speciallization里面穿着讲了一些画图的做法,重点在课程Exploratory Data Analysis 约翰霍普金斯中
Data Analysis and statistic inference 杜克大学 也讲了一些绘图,基本上就覆盖了大多数需要做图的情况
至于Decision Tree(决策树)的概念可以在Machine Learning: Supervised Learning 乔治亚理工里面找到,在其他一些关于统计的课程,例如Intro to Data science 华盛顿大学里面也有
Data Exploration in R(Hist, Boxplot etc)
Uni, Bi & Multivariate Viz
ggplot2
Histogram & Pie(Uni)
Tree & Tree Map
Scatter Plot (Bi)
Line Charts (Bi)
Spatial Charts
Survey Plot
Timeline
Decision Tree
D3.js
infoVis
IBM ManyEyes
Tableau
Big Data 大数据
Intro to Data science 华盛顿大学 讲了mapreduce的基本概念
最近开课的Mining Massive Data评价很高,建议上
Udacity的Into to Haddop and mapreduce可能更偏向实用,不过实际上比较短,并不详细
Map Reduce Fundamentals
Hadoop Components
HDFS
Data Replication Principles
Setup Hadoop (IBM/Cloudera/HortonWorks)
Name & Data Nodes
Job & Task Tracker
MIR Programming
Sqoop: Loading Data in HDFS
Flue, Scribe: For Unstruct Data
SQL with Pig
DWH with Hive
Scribe, Chunkwa For Weblog
Using Mahout
Zookeeper Avro
Storm: Hadoop Realtime
Rhadoop, Phipe
rmr
Classandra
MongoDB, Neo4j
Data Ingestion 数据获取
这部分比较形式,我个人认为经验成分很重,没有绝对相关的MOOC
Getting and Cleaning Data 约翰霍普金斯大学 中稍微涉及了一些数据可能的获取
Summary of Data Formats
Data Discovery
Data Sources & Acquisition
Data Integration
Data Fusion
Transformation & Enrichament
Data Survey
Google OpenRefine
How much Data
Using ETL
Data Munging 数据清理/数据转换
在Getting and Cleaning Data 约翰霍普金斯大学 提到了一些数据处理
在Machine Learning 斯坦福大学中也提到过数据标准化,特征提取问题
基本这部分知识都可以通过上完机器学习那部分课程的内容来获取
Dimensionality & Numerosity Reduction
Normalization
Data Scrubbing
Handling Missing Values
Unbiased Estimators
Binning Sparse Values
Feature Extraction
Denoising
Sampling
Stratified Sampling
Principal Component Analysis
Toolbox 工具箱
路漫漫~~漫漫~~漫~~~~
MS Excel w/ Analysis Toolpak
Java, Python
R, Rstudio, Rattle
Weka, Knime, RapidMiner
Hadoop Dist of Choice
Spark, Storm
Flume, Scibe, Chukwa
Nutch, Talend, Scraperwiki
Webscraper, Flume, Sqoop
tm, RWeka, NLTK
PHIPE
D3.js, ggplot2, Shiny
IBM Languageware
Cassandra, MongoDB>