大数据技术概述

一、大数据技术概述

1、大数据概述
在这里插入图片描述google技术:
在这里插入图片描述
典型的计算模式:
1、批处理模式:MapReduce
2、流计算:实时处理,给出实时响应
3、图计算
4、查询分析计算
在这里插入图片描述
2、云计算:
在这里插入图片描述
在这里插入图片描述
虚拟化:
在这里插入图片描述
2、物联网
物联网:物物相连的互联网。
物联网的层次架构:
在这里插入图片描述
物联网的关键技术:
1、 识别技术
如:二维码
2、感知技术
如:公交卡

二、Hadoop

1、简介
Hadoop是Apache软件基金会旗下的开源软件。可以支持多种编程语言。
Hadoop的两大核心:HDFS+MapReduce。
2、特点:
高可靠性
高效性
高可扩展性

3、应用现状:
在这里插入图片描述
4、版本变化:
在这里插入图片描述
5、Hadoop的项目结构
在这里插入图片描述
HDFS:分布式文件系统
YARN:资源管理和调度框架(集群资源管理)
MapReduce:离线计算
Tez:DAG计算
Spark:内存计算
Hive
Pig
Hive2
Pig2
Shark
Zookeeper:分布式协调服务
Hbase:分布式数据库
Flume:日志收集
Sqoop:数据库ETL工具

三、HDFS

HDFS:分布式文件系统。
在这里插入图片描述
HDFS实现目标:
1、兼容廉价的硬件设备
2、实现流数据读写
3、支持大数据集
4、支持简单的文件模型
5、强大的跨平台兼容性

HDFS自身的局限性:
1、不适合低延迟数据访问:不满足实时性
2、无法高效存储大量小文件
3、不支持多用户写入和任意修改文件,只允许追加

HDFS概述
块:
1、块:HDFS中最核心的概念,HDFS中的一个块比文件系统中的块大很多。为了分摊磁盘读写开销,也就是在大量数据间分摊磁盘寻址的开销。
2、目的:支持面向大规模数据存储、降低分布式节点的寻址开销。
3、缺点:如果块过大会导致 MapReduce 就 一两个任务在执行完全牺牲了 MapReduce 的并行度,发挥不了分布式并行处理的效果。
4、好处:支持大规模文件存储、简化系统设计、适合数据备份

HDFS两大组件:
名称节点:整个HDFS集群的管家。EditLog,存储增量数据。
数据节点:存储实际数据
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述HDFS的体系结构:主节点+多个数据节点构成
局限性:
命名空间限制,名称节点是保存在内存中的,能够容纳的对象的个数会受到空间大小限制。
性能的瓶颈,整个分布式文件的吞吐量,受限于单个名称节点的吞吐量。
隔离问题,由于只有一个名称节点,只有一个命名空间,因此无法对不同的应用程序进行隔离。
集群的可用性:一旦名称节点发生故障,会导致整个集群不可用。

HDFS的存储原理:
1、冗余数据保存的问题
好处:加快数据的传输速度、很容易检查数据错误、保证数据可靠性
2、数据保存策略的问题
3、数据恢复的问题。
数据读取:HDFS提供了一个API可以确定一个数据节点的机架ID,客户端也可以调用API获取自己所属的机架。
读取过程:七步。
在这里插入图片描述
写数据过程:七步。
在这里插入图片描述
数据的错误和恢复:
名称节点出错:冷备份,暂停服务一段时间,恢复后再继续;热备份,服务不用暂停。
数据节点出错:可以调整冗余数据的位置。
数据本身出错:校验码,验证数据是否出错,出错了则需要恢复数据。

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值