人工智能教程 - 专业选修课程4.3.11 - 复杂结构数据挖掘 2.大规模计算介绍,MapReduce介绍,Spark介绍

最新推荐文章于 2022-10-26 21:10:30 发布

KuFun元宇宙

最新推荐文章于 2022-10-26 21:10:30 发布

阅读量153

点赞数

分类专栏：专业选修课程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fsdaewrq/article/details/104642893

版权

专业选修课程专栏收录该内容

32 篇文章 5 订阅

订阅专栏

数据挖掘的大规模计算

商品硬件问题

挑战：

您如何分配计算？
我们怎样才能使分布式的编写变得容易程式？
机器故障：
- 一台服务器可以使用3年（1,000天）
- 如果您有1,000台服务器，则预计每天1台存在问题
- 使用1M机器，每天有1000台机器发生故障！

问题和解决方案

问题：通过网络复制数据需要时间

理念：

将计算带入数据
多次存储文件以提高可靠性

Spark / Hadoop解决了这些问题

存储基础架构–文件系统
- Google：GFS。 Hadoop：HDFS
编程模型
- MapReduce
- Spark

存储基础架构

问题：

如果节点发生故障，如何持久存储数据？

答：

分布式文件系统
- 提供全局文件名称空间 Provides global file namespace

典型用法：

巨大的文件（GB到TB的100s）
数据很少到位更新
阅读和追加很常见

分布式文件系统

块服务器

文件分为连续的块
通常每个块是16-64MB
复制的每个块（通常为2x或3x）
尝试将副本保存在不同的机架中

主节点

亦称Hadoop HDFS中的名称节点
存储有关文件存储位置的元数据
可能被复制

用于文件访问的客户端库

与主对话以查找块服务器
直接连接到块服务器以访问数据
可靠的分布式文件系统
数据以“块”形式分布在计算机之间
每个块都在不同的计算机上复制
从磁盘或计算机故障中无缝恢复

MapReduce是一种编程风格

设计用于：

简单的并行编程
硬件和软件的无形管理

失败

轻松管理超大规模数据

它有几种实现，包括Hadoop，Spark（在此类中使用），Flink和最初的Google实现只称为“ MapReduce”

3 steps of MapReduce

Map
Group by key
Reduce:

MapReduce范式

在这里插入图片描述

并行

在这里插入图片描述
模式

Spark

是最流行的数据流系统 Data-Flow Systems
弹性分布式数据集
Resilient Distributed Dataset (RDD)

数据分析软件栈架构

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
人工智能教程 - 专业选修课程4.3.11 - 复杂结构数据挖掘 2.大规模计算介绍,MapReduce介绍,Spark介绍

数据挖掘的大规模计算商品硬件问题挑战：您如何分配计算？我们怎样才能使分布式的编写变得容易程式？机器故障：一台服务器可以使用3年（1,000天）如果您有1,000台服务器，则预计每天1台存在问题使用1M机器，每天有1000台机器发生故障！问题和解决方案问题：通过网络复制数据需要时间理念：将计算带入数据多次存储文件以提高可靠性Spark / Hadoop解决了...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。