数据科学理论与实践——期末复习（简单版）

L__iiiii

已于 2024-05-23 23:22:40 修改

阅读量683

点赞数 25

文章标签：笔记大数据经验分享其他

于 2024-05-23 23:21:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/siri__iiiii/article/details/139159796

版权

参考：数据科学理论与实践（第3版）朝乐门编著

大数据时代的本质

新技术的不断涌现、人类的数据能力提升、人类进入数据富足时代

（大数据时代≈数据富足时代，大数据≈新数据）

数据

大数据含义（4v）

速度快：数据增长速度快，数据处理的时间要求高

数据量大：相对于计算与存储能力，数据量大

价值密度低：数据价值与数据量之间不一定存在线性关系

类型多：结构化、非结构化、半结构化等

数据打磨：将“原始数据”转换为“一次数据”(或“二次数据”）的过程

大数据挑战——“新数据”与“老知识”之间的矛盾日益突出

大数据时代的10大变革

数据科学的定义

数据科学≈大数据科学（+小数据科学）

数据科学研究目的与任务

大数据及其运动规律的揭示

从数据到智慧的转化

数据洞见

数据业务化

（大）数据分析及呈现

数据驱动决策（支持）

数据产品的研发

数据生态系统的建设

基本原则（与其他学科的重要区别）

1. 三世界原则

精神世界、物理世界、数据世界·

研究范式：

（1）实验科学范式

（2）理论科学范式

（3）计算科学范式

（4）数据密集型科学发现范式——Jim Gray提出第四范式

2. 三要素原则

理论、实践、精神（3C精神：创造性的工作、批判性思考、好奇性提问）

3. 数据范式原则

数据直接解决问题（数据->问题），不是数据->知识->问题

数据量足够大，可直接通过数据洞见，实现问题解决（历史经验主义）

4. 数据复杂性原则

复杂性->大数据不可分离的属性

发现传统数据处理方式普遍存在“信息丢失”现象->

“模式先、数据后范式” （转换成） “数据先、模式后范式”/“数据先、无模式范式”

5. 数据资产原则

数据不仅是“资源”还是“资产”

具有劳动增值、法律权属、财务价值、市场与产业、道德与伦理、其他属性（是数科重要研究课题之一）

数据科学的研究目的（DIKUW）：实现数据信息知识理解智慧

6. 数据驱动原则

数据是业务、决策、战略、市场甚至组织结构变化的主要驱动因素

7. 协同原则

数据科学涉及领域多，对每个领域知识、经验要求高，难找到人才/成本高

关注如何合理配置数据科学团队问题/如何实现不同数据科学家的优势互补

另，还强调人机合作及如何充分调动来自机构数据链长尾的“专家余”的积极性

人机协同+人际协同+机器协同

协同≠（传统）团队

8. 从简原则

对“智能的实现方式”有了新认识从“基于算法的智能”到“基于数据的智能”的过渡

“基于数据的智能”的重要特点是“数据复杂，但算法简单”

更多数据+简单算法=最好的数据模型

数据科学理论体系

人才类型

1. 数据科学家

2. 数据工程师

3. 数据分析师

数据化：指捕获人们的生活、业务或社会活动，并将其转换为数据的过程。

数据加工是一种增值过程

数据加工往往会导致信息丢失/扭曲现象的出现（尽量减少）

数据产品：能够通过数据来帮助用户实现某一个（些）目标的产品

数据分析三类型及其内在联系

描述性分析：数据信息

预测性分析：信息知识

规范性分析：知识智慧

数据清洗：指在数据审计的基础上，将“脏数据”清洗成“干净数据”的过程

脏数据：指在数据审计活动中发现有质量问题的数据。eg：缺失数据、冗余数据（重复、无关……）、噪声数据（错误、虚假、异常……）

一次数据清洗后得到的不一定是干净数据（有时需多次清洗才能清洗干净）

数据集成（不懂就看p109例子）

数据集成的基本类型（2种）

内容集成（目标数据集的结构与来源数据集结构相等）

结构集成（目标数据集的结构与来源数据集结构不同）

数据集成中需要注意的三个基本问题：

1，模式集成

2，数据冗余

3，冲突检测与消除

数据脱敏：是在不影响数据分析结果准确性的前提下，对原始数据进行一定的变换操作，对其中的个人/组织敏感数据进行替换/删除操作，降低信息的敏感性，避免相关主体的信息安全隐患和个人隐私问题

数据脱敏必须满足三个要求： 1.单向性 2.无残留 3.易于实现

数据审计：指按数据质量的一般规律与评价方法，对数据内容及其元数据进行审计，发现其中存在的“问题”

1. 预定义审计

2. 自定义审计

3. 可视化审计

数据分析（从复杂度及价值高低两个维度分为四种）

1. 描述性分析（主要关注“过去”，回答“已发生了什么”）

2. 诊断性分析（主要关注“过去”，回答“为什么发生”）

3. 预测性分析（主要关注“未来”，回答“将要发生什么”）

4. 规范性分析（主要关注“模拟与优化”，即“如何从即将发生的事情中受惠”以及“如何优化将要发生的事情”）

数据可视化

狭义上，数据可视化是与科学可视化、信息可视化、可是分析学平行的概念

广义上，数据可视化包含三类可视化技术：

科学可视化
信息可视化
可视化分析学

数据可视化与数据故事化的区别与联系

数据标注：主要目的是通过对目标数据补充必要的词性、颜色、纹理、形状、关键字或语义信息等标签类元数据，提高其检索、洞察、分析和挖掘的效果与效率。

按标注活动的自动化程度，数据标注可分为手工标注、自动化标注和半自动化标注。

从标注的实现层次看，数据标注可分为：语法标注、语义标注

数据科学项目中的主要角色及其任务

项目≠（日常）工作

MapReduce将复杂的、运行于大规模集群上的并行计算过程

高度地抽象到了两个函数：Map和Reduce

不同的Map任务之间不会进行通信

不同的Reduce任务之间也不会发生任何信息交换

用户不能显式地从一合机器向另一合机器发送消息

所有的数据交换都是通过MapReduce框架自身去实现

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，

为用户提供了系统底层细节透明的分布式基础架构

Hadoop的核心是分布式文件系统、HDES、MapReduce

Hadoop项目结构丰富发展，已经形成一个丰富的Hadoop生态系统

Spark

Spark最初由美国加州伯克利大学的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的，低延迟的数据分析应用程序

park用十分之一的计算资源，获得了比Hadoop快3倍的速度

Scala是一门现代的多范式编程语言，运行于Java平台(JVM，Java虚拟机）并兼容现有的Java程序

关注

25
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
1
评论
数据科学理论与实践——期末复习（简单版）

数据科学理论与实践——期末复习（简单版）参考：数据科学理论与实践（第3版）朝乐门编著
复制链接

扫一扫

L__iiiii CSDN认证博客专家 CSDN认证企业博客

码龄1年

10: 原创

110万+: 周排名

7万+: 总排名

7607: 访问

: 等级

337: 积分

223: 粉丝

237: 获赞

2: 评论

97: 收藏

私信

关注

热门文章

最新评论

大数据技术原理与应用——第2章（知识点+课后题）
m0_73604292: 哥们更快点
信息技术导论——课后题(第一章)
CSDN-Ada助手: 恭喜用户在信息技术导论领域坚持创作，第四篇博客的题目也很有深度。希望用户在未来的创作中可以继续分享更多有趣的知识和见解，或许可以尝试添加一些实际案例或个人体会，以丰富内容，期待用户更多精彩的文章呈现！祝用户创作愉快！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
大数据技术原理与应用——第1章（知识点+课后题）
CSDN-Ada助手: 恭喜你开始了博客创作，这是一个非常好的开始！大数据技术原理与应用是一个非常热门的话题，希望你能够深入挖掘其中的知识点，为读者提供更多有价值的内容。下一步可以考虑结合实际案例来分析大数据技术在不同领域的应用，这样可以让读者更加直观地理解这些知识点。加油！期待你更多优质的博文！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
数据科学理论与实践——期末复习（简单版）
CSDN-Ada助手: 非常感谢您分享这篇关于数据科学理论与实践的博文，期末复习的简单版内容一定对大家都很有帮助。希望您能继续保持创作的热情，分享更多有益的内容给大家学习参考。另外，在学习数据科学的过程中，掌握数据清洗、数据可视化、机器学习等技能也是非常重要的，希望您在后续的文章中能够涉及到这些方面的内容，让读者们能够更全面地了解数据科学的世界。期待您更多的精彩作品！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
数据科学理论与实践——期末复习（简单版）
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/618742646。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

L__iiiii 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。