1. 与数据科学有关的相关学科包括:数据库(Database)数据挖掘(Data Mining)机器学习(Machine Learning)模式识别(Pattern Recognition)数据科学导论(Data Science)等。
其中,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。由于统计学更重视理论研究,因此,统计学提供的许多技术通常都要在机器学习界进一步研究,编程有效的机器学习算法后,进入数据挖掘领域。机器学习研究往往并不把海量数据作为处理对象,因此,数据挖掘要对算法进行再改造,使得算法性能和空间占用都达到实用的地步。同时,数据挖掘还有自身独特的内容,及关联分析。数据挖掘重在发现知识,模式识别重在认识事物。机器学习的目的是建模隐藏的数据结构,然后做识别、预测、分类等。因此,机器学习是方法,模式识别是目的。
2. 数据科学的组成
· 计算机技巧 · 数学和统计知识 · 实质性的专业知识
数据科学知识图:
由上到下依次为:介绍、数据科学的处理过程、基本分析工具(weka 、 R 、 python)、分析方法、工程技术工具、实验和结果交付
3.数据科学中的三个重要技能:
1. 计算机能力:数据的获取和整理
· 数据整理
· 大规模数据
· 存储数据只是数据平台建设的一部分
2.数学和统计学能力:数据的挖掘
</