大数据概况

大数据概况

  1. 大数据:
    大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
  2. 大数据特征:
  • 4V特征
    Volume(大数据量):90% 的数据是过去两年产生
    Velocity(速度快):数据增长速度快,时效性高
    Variety(多样化):数据种类和来源多样化;结构化数据、半结构化数据、非结构化数据
    Value(价值密度低):需挖掘获取数据价值
  • 固有特征
    时效性
    不可变性
  1. 分布式计算:分布式计算将较大的数据分成小的部分进行处理。
    在这里插入图片描述
  2. Hadoop简介
  • Hadoop是一个开源分布式系统架构
    分布式文件系统HDFS——解决大数据存储
    分布式计算框架MapReduce——解决大数据计算
    分布式资源管理系统YARN
  • 处理海量数据的架构首选
  • 非常快得完成大数据计算任务
  • 已发展成为一个Hadoop生态圈
  1. Hadoop发行版本
    社区版:Apache Hadoop
    Cloudera发行版:CDH
    Hortonworks发行版:HDP
  2. Zookeeper
  • 是一个分布式应用程序协调服务
    ----解决分布式集群中应用系统的一致性问题
  • 提供的功能
    ----配置管理、命名服务、分布式同步、队列管理、集群管理等
  • 特性
    ----全局数据一致
    ----可靠性、顺序性、实时性
    ----数据更新原子性
  • Zookeeper集群
    角色:Leader、Follower、Observer
  1. Hadoop架构
  • HDFS(Hadoop Distributed File System)
    分布式文件系统,解决分布式存储
  • MapReduce
    分布式计算框架
  • YARN
    分布式资源管理系统
    在Hadoop 2.x中引入
  • Common
    支持所有其他模块的公共工具程序
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值