首先要推荐原始的出处:
http://sobigdata.com/2013/08/07/long-journey-to-data-scientists/
然后说明一下,该页也是再加工的网页,更加原始的出处:
http://nirvacana.com/thoughts/becoming-a-data-scientist/
作者叫Swami Chandrasekaran,是ibm的成员,Watson 项目,如果我没有记错的话,应该是那个赢得了智力问答的人工智能团队的。
他用信息图的方式将如何成为数据科学家的步骤画了出来,有较大的参考意义,当然这只是一家之言,不过可以让没有入门的同学快速有个参考也是功德无量的。
然后有人将信息图中详细步骤取出来,然后链接上wiki百科,这也是非常好的一个二次加工。
我在这里只是简单翻译引用一下,后续如果有比较好的具体参考书,再列在下面。
第一 基础部分:
- Fundamentals
- Metrics & Linear Algebra Fundamentals 线性代数基础
- Hash Functions, Binary Tree, O(n) hash算法,二叉树,大O估算
- Relational Algebra, DB Basics 关系代数,数据块基础
- Inner, Outer, Cross, Theta Join 关系代数的几个原语
- CAP Theorem 分布式的CAP原理
- Tabular Data 列数据
- Entropy 熵/信息量
- Data Frames & Series 数据帧&时间数列
- Sharding 分片
- OLAP 在线分析
- Multidimensional Data Model 多维数据模型
- Extract/Transform/Load(ETL) 数据提取、转换、加载
- Reporting vs BI vs Analytics 报告vs商业智能vs分析
- JSON & XML JSON&XML 2种常见的数据格式
- NoSQL NoSQL
- Regex 正则
- Vendor Landsacpe 厂商远景(不是很确定)
- Env Setup 环境搭建