一、数据科学的定义:
科学的定义:一部分在于对已经了解的事物的基本原理的整理,另一部分则在于探索的过程。
数据科学:从“数据层次“研究”现实世界”的问题,并根据“数据世界”的分析结果, 对“现实世界”迚行预测、洞见、解释戒决策的新兴科学。数据科学对数据进行分析、抽取信息和知识的过程提取指导和和支持的基本原则和方法的科学。
二、数据科学的定位:
是一门新兴的学科交叉从统计学,计算机科学等传统学科领域,特别是从数据库、数据挖掘、大数据分析、人工智能、机器学习、可视化等领域,借鉴了大量的理论和技术,吸收了有效的成分,逐步建立起自己的学科体系。
数据科学与数据库的关系:数据库发展至今,积累了大量的基础数据,为数据科学提供了“原材料”。
数据科学和大数据分析的关系:数据科学的核心任务是从数据中挖掘价值。数据蕴含规律性,数据中包含价值。人们希望把不同来源,不同类型的数据关联起来,分析其中的规律性,挖掘出其中的价值。
数据科学与基于数据的决策的关系;基于数据的决策指的是人们基于数据分析的结果进行决策,而不是仅仅基于直觉。
三、数据科学家:
数据科学家使用各种技术,对不同来源的数据进行分析,帮助企业做出更加明智的决策。并且市场对数据科学家的需求量正在逐步扩大。
数据科学家的技能:数据科学家需要拥有一系列指示和技能,包括一定的数学基础,统计分析、机器学习、数据挖掘、数据可视化方面的知识,编程能力以及对具体应用领域的深入了解。数据科学家还需要具有良好的沟通能力,能够和业务部门沟通,抽象起问题,并把分析结果清清楚楚地展示给业务部门,帮助他们做出决策。他们需要具备数据处理全流程的能力,包括理解业务数据、收集数据、对数据进行集成、对数据进行分析挖掘,对结果进行可视化,以及把结果表达给目标听众。
四、数据科学的基本原则:
原则1:数据分析可以划分成一系列明确的阶段:
understand data(了解数据), collect data(收集数据), integrate data(集成数据), analyze data(数据挖掘),
visualize result(数据可视化), communicate result(把结果表达给目标听众)
原则2:描述性分析与预测性分析:
描述性分析:通过数据,利用统计学的方法,对过去的数据进行分析,发现数据的规律。
诊断性分析:知道浙西数据背后的原因。
规范性分析:是描述性分析和诊断性分析的总和,不仅要预测将要发生什么事,以及什么时候发生,还要给出为什么会发生这样的事,给出若干的选项给决策者提出建议。
原则3:实体的相似性:
不仅要计算实体之间的相似性,也要计算物品之间的相似性。相似优于因果。
原则4:模型的泛化能力:
用机器学习的方向训练处一个模型,运用到新的领域时,可能结果很不理想(泛化能力太差)。
原则5:分析结果的评估与特定应用场景有关:
不仅要看数据本身,还得考虑数据生存的环境的影响。我们需要结合具体的应用场景进行评估,还要具有很好的沟通能力,了解用户。
原则6:相关不同于因果关系:
我们不需要关系数据与数据之间为啥会出现这种相关,相关性帮助我们进行预测。
原则6:通过并行处理提高数据分析速度:
程序=算法+数据结构
数据科学=数据+数据上的计算
分布式处理,把要处理的事物分而治之,提高运行数据。