第十四章大数据和数据科学

西瓜汁大数据

于 2024-08-03 09:26:58 发布

阅读量528

点赞数 10

分类专栏：数据治理CDGA 文章标签：大数据

本文链接：https://blog.csdn.net/H651883075/article/details/140617850

版权

数据治理CDGA 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

信息收敛三角

数据科学

数据科学将数据挖掘、统计分析和机器学习与数据集成整合，结合数据建模能力，去构建预测模型、探索数据内容模式。
分析对比

数仓和数据科学区别：

数据仓库主要用于描述性分析，提供事后的结论

数据科学侧重于预测性和规范性分析，旨在为未来提供预测和决策支持。
数据仓库关注已发生事情的总结，而数据科学强调对未来的洞察和预见。

数据科学：

预测性分析，洞察，未来可能会发生什么
规范性分析，预见，我们该做什么才能保证事情发生

数据科学的过程阶段

2. 业务驱动因素

从多种流程生成的数据集中发现的商机

3. 大数据

早期，人们通过3 V来定义大数据含义的特征：数据量大（Volume）、数据更新快（Velocity）、数据类型多样/可变（Variety）（Laney，2001）。随着越来越多的组织开始深挖大数据的潜力，已经不止于以上三个V。

V列表有了更多的扩展：

1）数据量大（Volume）。大数据通常拥有上千个实体或数十亿个记录中的元素。
2）数据更新快（Velocity）。指数据被捕获、生成或共享的速度。大数据通常实时地生成、分发及进行分析。
3）数据类型多样/可变（Variety/Variability）。指抓取或传递数据的形式。大数据需要多种格式储存。通常，数据集内或跨数据集的数据结构是不一致的。
4）数据黏度大（Viscosity）。指数据使用或集成的难度比较高。
5）数据波动性大（Volatility）。指数据更改的频率，以及由此导致的数据有效时间短。
6）数据准确性低（Veracity）。指数据的可靠程度不高。

总结：

数据量大（Volume）
数据更新快（Velocity）
数据更新快（Velocity）
数据黏度大（Viscosity）
数据波动性大（Volatility）
数据准确性低（Veracity）

2.1 大数据的来源？

1. 结构化的数据（数仓）
2. 非结构化的数据（进数据湖）

3. 数据湖

数据湖是一种可以提取，存储，评估和分析不同类型和结构海量数据的环境可供多种场景使用，例如：

1）数据科学家可以挖掘和分析数据的环境。
2）原始数据的集中存储区域，只需很少量的转换（如果需要的话）。
3）数据仓库明细历史数据的备用存储区域。
4）信息记录的在线归档。
5）可以通过自动化的模型识别提取流数据的环境。

数据湖的风险在于：它可能很快会变成数据沼泽——杂乱、不干净、不一致。为了建立数据湖中的内容清单，在数据被摄取时对元数据进行管理至关重要。

4. 基于服务的架构（Lambda架构）

SBA架构
- 批处理层（Batch Layer）
- 加速层（Speed Layer）
- 服务层（Serving Layer）

5. 机器学习（需要理解）

算法分类
- 监督学习（Supervised learning）
  
  基于通用规则（如将SPAM邮件与非SPAM邮件分开）
  
  （对于可能性的结果是可知的，比如预测一下明年的销售额比今年多还是少）
- 无监督学习（Unsupervised learning）
  
  基于找到的那些隐藏的规律（数据挖掘）
  
  （无监督学习可能性结果未知，比如预测一下明年的销售额是多少）
监督学习关注已发生动作的预测，无监督学习关注无限可能性。
- 强化学习（Reinforcement learning）
  
  基于目标的实现（如在国际象棋中击败对手）
  
  （前面那一次的结果会作为下面这一次的一个输入，所以它是不断的越来越好，越来越好的这么一个过程）

6. 语义分析 NLP(自然语言分析)

7. 数据和文本挖掘

剖析（Profiling）
数据缩减（Data reduction）
关联（Association）
聚类（Clustering）
自组织映射（Self-organizing maps）

8. 规范分析

规范分析（Prescriptive Analytics）比预测分析更进一步，它对将会影响结果的动作进行定义，而不仅仅是根据已发生的动作预测结果

9.数据可视化

通过使用图片或图形表示来解释概念、想法和事实的过程。

10. 活动

10.1 大数据战略评估标准

1）组织试图解决什么问题，需要分析什么
2）要使用或获取的数据源是什么
3）提供数据的及时性和范围
4）对其他数据结构的影响以及与其他数据结构的相关性
5）对现有建模数据的影响

11. 工具

MPP无共享技术和架构
基于分布式文件的数据库
数据库内算法
大数据云解决方案
统计计算和图形语言
数据可视化工具集

12. 度量指标

数据使用指标
响应和性能指标
和扫描指标
学习和故事场景

西瓜汁大数据

关注

10
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
第十四章大数据和数据科学

信息收敛三角数据科学数据科学将数据挖掘、统计分析和机器学习与数据集成整合，结合数据建模能力，去构建预测模型、探索数据内容模式。分析对比数据仓库主要用于描述性分析，提供事后的结论数据科学侧重于预测性和规范性分析，旨在为未来提供预测和决策支持。数据仓库关注已发生事情的总结，而数据科学强调对未来的洞察和预见。数据科学：预测性分析，洞察，未来可能会发生什么规范性分析，预见，我们该做什么才能保证事情发生数据科学的过程阶段。
复制链接

扫一扫