数据科学

一、数据科学的定义:

科学的定义:一部分在于对已经了解的事物的基本原理的整理,另一部分则在于探索的过程。

数据科学:从“数据层次“研究”现实世界”的问题,并根据“数据世界”的分析结果, 对“现实世界”迚行预测、洞见、解释戒决策的新兴科学。数据科学对数据进行分析、抽取信息和知识的过程提取指导和和支持的基本原则和方法的科学。

二、数据科学的定位:

是一门新兴的学科交叉从统计学,计算机科学等传统学科领域,特别是从数据库、数据挖掘、大数据分析、人工智能、机器学习、可视化等领域,借鉴了大量的理论和技术,吸收了有效的成分,逐步建立起自己的学科体系。

数据科学与数据库的关系:数据库发展至今,积累了大量的基础数据,为数据科学提供了“原材料”。

数据科学和大数据分析的关系:数据科学的核心任务是从数据中挖掘价值。数据蕴含规律性,数据中包含价值。人们希望把不同来源,不同类型的数据关联起来,分析其中的规律性,挖掘出其中的价值。

数据科学与基于数据的决策的关系;基于数据的决策指的是人们基于数据分析的结果进行决策,而不是仅仅基于直觉。

三、数据科学家:

数据科学家使用各种技术,对不同来源的数据进行分析,帮助企业做出更加明智的决策。并且市场对数据科学家的需求量正在逐步扩大。

数据科学家的技能:数据科学家需要拥有一系列指示和技能,包括一定的数学基础,统计分析、机器学习、数据挖掘、数据可视化方面的知识,编程能力以及对具体应用领域的深入了解。数据科学家还需要具有良好的沟通能力,能够和业务部门沟通,抽象起问题,并把分析结果清清楚楚地展示给业务部门,帮助他们做出决策。他们需要具备数据处理全流程的能力,包括理解业务数据、收集数据、对数据进行集成、对数据进行分析挖掘,对结果进行可视化,以及把结果表达给目标听众。

四、数据科学的基本原则:

原则1:数据分析可以划分成一系列明确的阶段:

understand data(了解数据), collect data(收集数据), integrate data(集成数据), analyze data(数据挖掘),

visualize result(数据可视化), communicate result(把结果表达给目标听众)

原则2:描述性分析与预测性分析:

描述性分析:通过数据,利用统计学的方法,对过去的数据进行分析,发现数据的规律。

诊断性分析:知道浙西数据背后的原因。

规范性分析:是描述性分析和诊断性分析的总和,不仅要预测将要发生什么事,以及什么时候发生,还要给出为什么会发生这样的事,给出若干的选项给决策者提出建议。

原则3:实体的相似性:

不仅要计算实体之间的相似性,也要计算物品之间的相似性。相似优于因果。

原则4:模型的泛化能力:

用机器学习的方向训练处一个模型,运用到新的领域时,可能结果很不理想(泛化能力太差)。

原则5:分析结果的评估与特定应用场景有关:

不仅要看数据本身,还得考虑数据生存的环境的影响。我们需要结合具体的应用场景进行评估,还要具有很好的沟通能力,了解用户。

原则6:相关不同于因果关系:

我们不需要关系数据与数据之间为啥会出现这种相关,相关性帮助我们进行预测。

原则6:通过并行处理提高数据分析速度:

程序=算法+数据结构

数据科学=数据+数据上的计算

分布式处理,把要处理的事物分而治之,提高运行数据。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值