数据科学大纲
1. 数据处理定义、动机;数据准备概念;ETL的概念及应用场景;大数据特征。
2. 推荐系统概念、描述;基于用户和物品的协同过滤概念、内容、对比以及总结。
3. NoSQL(包括四种类型数据库)的概念、描述、代表产品及使用场景,与关系数据库对比。
4. 结构化数据vs非结构化数据vs半结构化数据。
5. 噪声的概念及处理方法;数据脱敏的概念及原则。
6. 机器学习定义及其关键问题、机器学习中目标函数。
7. 神经网络的学习算法有哪些,神经网络如何应用。
8. Spark与hadoop的对比,速度快的原因。
9. Aprior算法概念和应用;k-近邻算法和k-means算法概念和应用;强化学习的内容,包括概念、内容以及应用(Q-learning训练例子)。MapReduce计算模型的概念,应用例子(怎样通过MapReduce完成排序工作)。