Spark产生的背景

大数据时代:
数据量大
数据种类繁多
数据增长速度快

大数据不同层面及技术:
在这里插入图片描述

大数据关键技术:
分布式存储
GFS/HDFS
BigTable/HBase
NoSQL(键值、列族、图形、文档数据库)
NewSQL(如 : SQL Azure )

分布式处理框架:
Hadoop
Storm
Flink
Spark

hadoop:
hadoop是Apache软件基金会旗下的一个开源式计算平台为用户提供了系统底层细节透明的分布式基础架构
Hadoop是java编写的开源、可伸缩和容错的框架,并且可部署在廉价的计算机集群中
hadoop以分布式文件系统HDFS和MapReduce为核心进行海量数据的存储和处理
Hadoop为在为多个节点集群上处理数据提供了有效的框架
hadoop可在多台机器上运行,提供数据的并行处理

hadoop生态圈:
1.HDFS
(1)hadoop的主要存储系统
(2)由主节点Namenode和从节点Datanode组成
(3)Namenode存储元数据(数据块的数量、位置)
(4)Datanode存储数据内容
2.YARN
(1)管理Hadoop的资源,负责管理和监视工作
(2)数据共享和资源统一管理
(3)是Hadoop支持更多的应用程序
3.MapReduce
(1)一种编程模型,用于海量数据的并行运算
(2)map函数 :从输入值中提取信息并对数据进行分类
(3)reduce函数 :整合、筛选或转化同类并输出

Hadoop的特点:
1.数据本地化:
(1)本地化是Hadoop能够进行大数据处理的独特性质
(2)在储存数据的位置处理数据
2.传统数据处理系统:
(1)存储与计算(数据处理)保持独立
(2)数据通过网络传输到计算机进行处理

Hadoop的缺点:
1.表达能力有限:
不支持多用户写入及任意修改文件
仅支持append
数据不支持随机读,只能从头到尾扫描
2.磁盘IO开销大:
MapReduce中,不同作业之间需要使用磁盘进行数据共享
对于训练模型,迭代轮数大,磁盘读写频繁
3.延迟高:
任务之间的衔接涉及IO开销
在之前一个任务执行完成之前,其他任务无法开始
难以胜任复杂、多阶段的计算任务

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值