数据仓库-Hadoop

大数据定义

所谓大数据就是这样一个数据集合,它的数据量和复杂度是传统数据处理应用无法应对的。

大数据带来的挑战包括:数据分析、数据捕获、数据治理、搜索、共享、存储、传输、可视化、查询、更新和信息安全等。

大数据更像是一套处理数据的方法和解决方案。

换句话说普通软件没办法可以在容忍的时间范围内完成大数据的捕获和处理。

现在普遍认可的大数据具有4V
volume 数据量大
velocity 速度快
variety 数据多样
veracity 数据真实和高质量

Hadoop简介

Hadoop较早用来处理大数据集合的分布式存储计算基础架构。
最早由Apache软件基金会开发。
用户可以在不了解底层的细节的情况下,开发分布式程序。充分利用集群威力。

简单说,Hadoop是一个平台。
Hadoop软件库是一个计算框架,在此框架下可以使用一种简单的编程模式,通过多台计算机构成集群。分布式处理大数据集。

Hadoop构成

4个基本模块
Hadoop基本功能库,支持Hadoop模块通用程序包。
HDFS分布式文件系统,提供高吞吐量访问应用的数据。
YARN作业调度和资源管理框架
MapReduce基于YARN的大数据并行处理程序。

除了以上基础模块,还包含其他项目:
暂不一一列举

Hadoop主要特点

扩容能力
成本低
高效率
可靠性

Hadoop架构

一个小规模的Hadoop集群包含一个主节点和多个从节点。

Hadoop基本组件

HDFS
YARN
Mapreduce

HDFS
HDFS是一个运行在通用硬件设备上的分布式文件系统。
高度容错的,在廉价的硬件上部署。

HDFS提供高吞吐量访问应用数据的能力,非常适合拥有大数据集的应用。
HDFS方可了一些POSIX需求,允许对文件系统数据的流式访问。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值