hadoop概念特征。

Hadoop大数据

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

大数据特征:

4V特征:

	Volume(大数据量):90%的数据是过去两年产生
	Velocity(速度快):数据增长速度快,时效性高
	Variety(多样化):数据种类和来源多样化
		结构化数据、半结构化数据、非结构化数据
	Value(价值密度低):需要挖掘数据价值

固有特征:

	时效性
	不可变性

分布式计算

分布式计算将较大的数据分成小的部分进行处理

项目 传统分布式计算 新的分布式计算-Hadoop
计算方式 将数据复制到计算节点 在不同数据节点并行计算
可处理数据量 小数据量 大数据量
Cpu性能限制 受cpu限制较大 受单台设备限制小
提升计算能力 提升单台机器计算能力 扩展低成本服务器集群

hadoop

Hadoop是一个开源分布式系统架构

  1. 分布式文件系统HDFS——解决大数据存储
  2. 分布式计算框架MapReduce——解决大数据计算
  3. 分布式资源管理系统YARN

处理海量数据的架构首选
非常快的完成大数据计算任务
已发展成为一个Hadoop生态圈

起源

  • Hadoop起源于搜索引擎Apache Nutch
    • 创始人:Dong Cutting
      2004年——最初版本实施
      2008年——成为Apache顶级项目
  • Hadoop发行版本
    • 社区版:Apache Hadoop
      Cloudera发行版:CDH
      Hortonworks发行版:HDP

优缺点

  • 使用Hadoop的优点:
    • 高扩展性、可伸缩
      高可靠性
      多副本机制。容错高
      低成本
      无共享架构
      灵活,可存储任意数据类型
      开源,社区活跃

与传统数据库对比

Hadoop与关系型数据库对比

项目 RDBMS Hadoop
格式 写数据时要求 读数据时要求
速度 读数据速度快 写数据速度快
数据监管 准结构化 任意数据结构
数据处理 有限的处理能力 强大的处理能力
数据类型 结构化数据 结构化、半结构化、非结构化
应用场景 交互式OLAP分析、ACID事务处理、企业业务系统 处理非结构化数据、海量数据存储计算

<

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值