大数据概述

Big Data?

  • What? 4V特征

Volume 数据量大
Variety 数据种类多
Velocity 处理速度快
Value 基于高度分析的新价值(价值密度低)

  • 带来的技术变革

计算瓶颈
存储瓶颈
数据库瓶颈

Hadoop?

  • What?

一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。

reliable, scalable, distributed computing
高可靠、易扩展、分布式

  • Include?

Distributed File System (HDFS) - - 分布式存储
YARN - - 资源调度
MapReduce - - 分布式计算

注:Apache顶级项目url命名规则

projectName.apache.org,如:
http://hadoop.apache.org
http://hive.apache.org
http://spark.apache.org
http://hbase.apache.org

  • Why? 选用Hadoop作为大数据平台的解决方案

1.源码开源
2.社区活跃、参与者多
3.涉及到分布式存储和计算的方方面面:
- - Flume进行数据采集
- - Spark/MR/Hive等进行数据处理
- - HDFS/HBase进行数据存储
4.已得到企业界的验证

HDFS?

  • What?

Hadoop实现了一个分布式文件系统
源自于2003年Google的GFS论文

MapReduce?

  • What?

分布式计算框架
源自于2004年Google的MapReduce论文

YARN?

  • What?

资源调度框架

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值