初识大数据

1,大数据技术解决的主要是海量数据的存储和计算。

   hadoop分为广义和狭义之分:

      狭义的hadoop指的是一个框架,hadoop是由三部分组成:hdfs:分布式文件系统,作用是存储;mapreduce:分布式离线计算框架,作用:计算;yarn:资源调度框架;

      广义的hadoop不仅仅包含了hadoop框架,还有一些辅助的框架,flume,sqoop,hive,hbase等,指的是一个生态圈。

2,大数据的定义:

     大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

3,大数据的特点:

      IBM用“5V”来表示:大量(volume),多样性(variety),高速(velocity),低价值(value),真实(veracity)

      1.高可靠性:它维护了多个工作副本,在出现故障的时可以对失败的节点进行重新分布式处理

      2.高扩展性:可以扩展数以千计的节点

      3.高效性:分而治之,并行处理数据,所以效率会高

      4.高容错性:自动保存多个工作副本,可以自动将失败的任务重新分配。

4.hadoop组成:hdfs mapreduce yarn common(支持其他模块的工具模块:configuration,rpc,序列化,日志操作等)

5.hadoop简介:

  1.       2003年、2004年谷歌发表的两篇论文为大数据的存储和计算提供了可行的解决方案
  2.       发展演变关系:GFS —> HDFS,Google MapReduce —> Hadoop MapReduce ,BigTable —> HBase 
  3.      2005年,Hadoop 作为Lucene的子项目Nutch的一部分引入Apache
  4.      2006年,HadoopNutch剥离出来独立
  5.      2008年,Hadoop成为Apache的顶级项目
  6.      Hadoop这个名字来源于Hadoop之父Doug Cutting儿子的毛绒玩具象

6.hadoop发行版本:apache hadoop,Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”),Hortonworks版本(Hortonworks Data Platform,简称“HDP”)。

7.hadoop的优点就是上面说的它 的特点,这里说下它的缺点:

  1.       不适用于低延迟的数据访问
  2.       不能高效存储大量小文件
  3.       不支持多用户写入并修改文件

8.hdfs 分而治之:

HDFS:Master:管理和维护数据 Slave:负责存储文件数据块.

对于大数据进行切分,切割得到的数据块存放到slave中,每个slave可能会得到多个数据块。

获取文件过程:namenode中元数据记录了文件的块链表以及块所在的datanode节点信息,请求namenode中的块信息,分别下载并合并就得到之前的文件。

角色:nameNode(NN):负责存储文件的元数据信息,比如文件名,文件目录结构,文件属性以及文件的块列表和块所在的                   dataNode等

           secondaryNamenode(2NN):辅助nameNode,监控hdfs状态的后台辅助程序,每隔一段时间会获取hdfs的元数据快照

          dataNode(DN):存储文件块数据,块数据的校验

NN,DN既是角色名称,也是进程名称也代指电脑节点

9.mapreduce:一个分布式的离线计算框架

   分而治之思想:存储--》数据块  计算--》切分,切片  每个节点负责一个切片的计算

   MapReduce 计算 = Map 阶段(分) + Reduce 阶段(合)
   
10.yarn:资源调度框架
        角色和作用:
        resourceManager(rm):处理客户端请求,启动/监控ApplicationMaster,监控nodeManager,资源的分配和调度
        nodeManager(nm):单个节点的资源管理,处理来自rm和am的命令。
        applicationManager(am):数据切分,为应用程序申请资源,并分配给内部任务,任务监控与容错(容错:十个任务中有失败的)。
        container:可以理解为虚拟机,虚拟资源集合。 对任务运行环境的抽象,封装了 CPU 、内存等多维资源以及环境变量、启动命令等任 务运行相关的信息。
ResourceManager是老大,NodeManager是小弟,ApplicationMaster是计算任务专员。
MR任务的实际运行是需要调度执行的,它是由RM来查看空闲的资源,然后初始化一个am,会向rm申请map/reduce阶段的资源,rm返回给am一个nm,然后通信nm生成container来接收map/reduce task,当map/reduce任务运行结束后,am会向rm发出完成请求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值