数据科学理论与实践——期末复习(简单版)

参考:数据科学理论与实践(第3版)朝乐门 编著

大数据时代的本质

新技术的不断涌现、人类的数据能力提升、人类进入数据富足时代

(大数据时代≈数据富足时代,大数据≈新数据)

数据

大数据含义(4v)

速度快:数据增长速度快,数据处理的时间要求高

数据量大:相对于计算与存储能力,数据量大

价值密度低:数据价值与数据量之间不一定存在线性关系

类型多:结构化、非结构化、半结构化等

数据打磨:将“原始数据”转换为“一次数据”(或“二次数据”)的过程

大数据挑战——“新数据”与“老知识”之间的矛盾日益突出

大数据时代的10大变革

数据科学的定义

数据科学≈大数据科学(+小数据科学)

数据科学研究目的与任务

大数据及其运动规律的揭示

从数据到智慧的转化

数据洞见

数据业务化

(大)数据分析及呈现

数据驱动决策(支持)

数据产品的研发

数据生态系统的建设

基本原则(与其他学科的重要区别)

1. 三世界原则

精神世界、物理世界、数据世界·

研究范式:

     (1)实验科学范式

     (2)理论科学范式

     (3)计算科学范式

     (4)数据密集型科学发现范式——Jim Gray提出第四范式

2. 三要素原则

理论、实践、精神(3C精神:创造性的工作、批判性思考、好奇性提问)

3. 数据范式原则

数据直接解决问题(数据->问题),不是数据->知识->问题

数据量足够大,可直接通过数据洞见,实现问题解决(历史经验主义)

4. 数据复杂性原则

复杂性->大数据不可分离的属性

发现传统数据处理方式普遍存在“信息丢失”现象->

“模式先、数据后范式”   (转换成)  “数据先、模式后范式”/“数据先、无模式范式”

5. 数据资产原则

数据不仅是“资源”还是“资产”

具有劳动增值、法律权属、财务价值、市场与产业、道德与伦理、其他属性(是数科重要研究课题之一)

数据科学的研究目的(DIKUW):实现数据信息知识理解智慧

6. 数据驱动原则

数据是业务、决策、战略、市场甚至组织结构变化的主要驱动因素

7. 协同原则

数据科学涉及领域多,对每个领域知识、经验要求高,难找到人才/成本高

关注如何合理配置数据科学团队问题/如何实现不同数据科学家的优势互补

另,还强调人机合作及如何充分调动来自机构数据链长尾的“专家余”的积极性

人机协同+人际协同+机器协同

协同≠(传统)团队

8. 从简原则

对“智能的实现方式”有了新认识从“基于算法的智能”到“基于数据的智能”的过渡

“基于数据的智能”的重要特点是“数据复杂,但算法简单”

更多数据+简单算法=最好的数据模型

数据科学理论体系

人才类型

1. 数据科学家

2. 数据工程师

3. 数据分析师

数据化:指捕获人们的生活、业务或社会活动,并将其转换为数据的过程。

数据加工是一种增值过程

数据加工往往会导致信息丢失/扭曲现象的出现(尽量减少)

数据产品:能够通过数据来帮助用户实现某一个(些)目标的产品

数据分析三类型及其内在联系

描述性分析:数据信息

预测性分析:信息知识

规范性分析:知识智慧

数据清洗:指在数据审计的基础上,将“脏数据”清洗成“干净数据”的过程

脏数据:指在数据审计活动中发现有质量问题的数据。eg:缺失数据、冗余数据(重复、无关……)、噪声数据(错误、虚假、异常……)

一次数据清洗后得到的不一定是干净数据(有时需多次清洗才能清洗干净)

数据集成(不懂就看p109例子)

数据集成的基本类型(2种)

内容集成(目标数据集的结构与来源数据集结构相等)

结构集成(目标数据集的结构与来源数据集结构不同)

数据集成中需要注意的三个基本问题:

1, 模式集成

2, 数据冗余

3, 冲突检测与消除

数据脱敏:是在不影响数据分析结果准确性的前提下,对原始数据进行一定的变换操作,对其中的个人/组织敏感数据进行替换/删除操作,降低信息的敏感性,避免相关主体的信息安全隐患和个人隐私问题

数据脱敏必须满足三个要求: 1.单向性 2.无残留 3.易于实现

数据审计:指按数据质量的一般规律与评价方法,对数据内容及其元数据进行审计,发现其中存在的“问题”

1. 预定义审计

2. 自定义审计

3. 可视化审计

数据分析(从复杂度及价值高低两个维度分为四种)

1. 描述性分析(主要关注“过去”,回答“已发生了什么”)

2. 诊断性分析(主要关注“过去”,回答“为什么发生”)

3. 预测性分析(主要关注“未来”,回答“将要发生什么”)

4. 规范性分析(主要关注“模拟与优化”,即“如何从即将发生的事情中受惠”以及“如何优化将要发生的事情”)

数据可视化

狭义上,数据可视化是与科学可视化、信息可视化、可是分析学平行的概念

广义上,数据可视化包含三类可视化技术:

  1. 科学可视化
  2. 信息可视化
  3. 可视化分析学

数据可视化与数据故事化的区别与联系

数据标注:主要目的是通过对目标数据补充必要的词性、颜色、纹理、形状、关键字或语义信息等标签类元数据,提高其检索、洞察、分析和挖掘的效果与效率。

按标注活动的自动化程度,数据标注可分为手工标注、自动化标注和半自动化标注。

从标注的实现层次看,数据标注可分为:语法标注、语义标注

数据科学项目中的主要角色及其任务

项目≠(日常)工作

MapReduce将复杂的、运行于大规模集群上的并行计算过程

高度地抽象到了两个函数:Map和Reduce

不同的Map任务之间不会进行通信

不同的Reduce任务之间也不会发生任何信息交换

用户不能显式地从一合机器向另一合机器发送消息

所有的数据交换都是通过MapReduce框架自身去实现

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,

为用户提供了系统底层细节透明的分布式基础架构

Hadoop的核心是分布式文件系统、HDES、MapReduce

Hadoop项目结构丰富发展,已经形成一个丰富的Hadoop生态系统

Spark

Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的,低延迟的数据分析应用程序

park用十分之一的计算资源,获得了比Hadoop快3倍的速度

Scala是一门现代的多范式编程语言,运行于Java平台(JVM,Java虚拟机)并兼容现有的Java程序

  • 25
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

L__iiiii

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值