Hadoop基础知识1

 

第二周第二次作业

  1、HDFS有哪些局限性?

不适合低延迟的数据访问,无法高效存储大量小文件,不支持多用户随机写入及任意修改文件。

命名空间的限制:分布式文件系统只有一个名称节点且保存在内存中,因此名称节点能够容纳对象的个数受到内存空间大小的限制

性能的瓶颈:整个分布式文件系统的吞吐量受限于单个名称节点的吞吐量

集群的可用性:一旦这个唯一的节点发生故障,会导致整个集群变的不可用。

hdfs只允许一个文件有一个写入者,不允许多个用户对同一个文件执行写操作,而且只允许对文件执行追加操作,不能执行随机写操作。

 2、HDFS名称节点的数据结构、启动过程是怎样的?

名称节点负责分布式文件系统的命名空间,保留两个核心的数据结构:EditLog 和 FsImage

FsImage:维护文件系统树 以及 文件树中所有的文件和文件夹的元数据 。

EditLog: 记录了所有针对文件的增删,重命名操作。

名称节点记录了各个块所在的节点的位置信息,但是并不是持久化存储这些信息,而是在系统每次启动时候扫描所有的数据节点重构得到这些信息。

启动过程:名称节点在启动时,会将FsImage的内容加载到内存当中,然后执行EditLog文件中的各项操作,使得内存中的元数据保持最新。这个操作完成以后,就会创建一个新的FsImage文件和空的EditLog文件。名称节点启动成功并进入正常运行状态以后,HDFS中的更新操作都被写入到EditLog而不是直接写入F是Image,这是因为对于分布式文件系统而言,FsImage文件通常都很庞大,如果所有的更新操作都直接往FsImage文件里加,那么系统就会变得非常的缓慢。名称节点启动过程中处于安全模式,只提供读操作不提供写操作,启动成功,安全模式解除后,对外提供写操作。

 3、HDFS第二名称节点有什么作用?

为了有效解决EditLog逐渐变大带来的问题。

  • 可以完成EditLog与FsImage的合并操作,减小EditLog文件大小,缩短名称节点的启动时间。缩短名称节点重启时间
  • 可以作为名称节点的检查节点,周期性的备份名称节点中的元数据信息。

 4、HDFS第二名称节点的工作过程是怎样的?

https://blog.csdn.net/qq_35688140/article/details/83582467

 5、HDFS客户端可以通过什么方式来访问HDFS中的数据?

类似shell的命令行方式,或者java API

 

 

第二周第一次作业

什么是文件系统:

一堆文件夹,然后里面又有一堆文件,这些东东就是文件系统的表象。那本质是什么呢?我们知道这些东西其实都是存在磁盘上的,具体磁盘空间是什么样的我们并不知道,但文件系统软件给我们呈现出来了一个非常清晰的表象,我们可以创建、删除和复制这些文件。而实现这些功能是通过一个软件实现的,这个软件就是文件系统。

文件系统一般会把磁盘空间划分为每512字节一组,称为磁盘块,它是文件系统读写操作的最小单位,文件系统的块(block)通常是磁盘块的整数倍,即每次读写的数据量必须是磁盘块大小的整数倍。

1、什么是Hadoop?

hadoop是开源的分布式计算平台,核心构mapreduce 和 分布式文件系统hdfs。基于java语言编写,具有良好的跨平台特性。

2、大数据生态系统主要包括哪些方面?

hdfs(分布式文件系统),mapreduce(分布式计算框架),Hbase(分布式数据库),zookeeper(分布式协作服务),Pig(数据流处理),YARN(资源调度和管理框架),Flume(日志收集),Sqoop(数据库ETL)

3、计算机集群的基本架构是怎样的? 

机架由若干节点通过网络互连,机架之间通过交换机互联

4、简述分布式文件系统的结构?

  • 分布式文件系统在物理结构上是由计算机集群上的多个节点构成的,一类为名称节点,一类为数据节点。
  • 名称节点负责文件和目录的创建,删除和重命名等,同时管理着数据节点和文件块的映射关系。
    •  客户端只有访问名称节点才能找到请求的文件块所在的位置,进而到相应位置读取所需文件块。
  • 数据节点负责数据的存储和读取,在存储时,由名称节点分配存储位置,然后由客户端把数据直接写入到相应的数据节点。
    • 数据节点也要根据名称节点的命令创建,删除数据块和冗余复制。

 

第一周第二次作业

并行编程模型 mapreduce  map/reduce       HDFS  hadoop distributed file system

1、什么是云计算,它提供了哪几种服务模式?

      云计算是分布式计算的一种,指通过网络云将巨大的数据计算处理程序分解成无数个小程序,然后通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。

  1. 基础设施即服务  Iaas
  2. 平台即服务  Paas
  3. 软件即服务  Saas

云分类:公有云,私有云,混合云

 2、云计算的关键技术是什么?

  • 虚拟化
  • 分布式存储
  • 分布式计算
  • 多租户

 3、什么是物联网?

  物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或物联网等通信技术 把 传感器,控制器,机器,人员和物等通过新的方式结合在一起,形成人与物,物与物相连,实现信息化和远程管理控制。

   4、从技术架构上看,物联网可以分为哪几层?

  • 感知层
  • 网络层
  • 处理层
  • 应用层

 5、物联网的关键技术是什么?

  • 识别与感知技术
  • 网络与通信技术
  • 数据挖掘与融合技术

 6、什么是传感器?

是一种能感受 规定的被测量件 并 按照一定的规律转换成可用信号的 器件或者装置

 7、大数据、云计算和物联网之间有什么关系?

云计算为大数据提供了技术基础,大数据为云计算提供用武之地。

物联网是大数据的重要来源,大数据技术为物联网数据分析提供支撑

云计算为物联网提供海量数据存储能力

物联网为云计算提供了广阔的应用空间

第一周第一次作业

1、三次信息化浪潮分别以什么为标志,解决了什么问题?

  1. 个人计算机  信息处理
  2. 互联网  信息传输
  3. 物联网 云计算 大数据 信息爆炸

 2、信息科技从哪些方面为大数据时代的到来提供了技术支撑?

       信息科技主要解决的问题为:信息存储,信息处理,信息传输

  1. 存储设备容量不断增加
  2. cpu处理能力大幅提升
  3. 网络带宽不断增大

    3、数据的产生方式大致经历了哪三个阶段?

  1. 运营式系统阶段
  2. 用户原创内容阶段
  3. 感知式系统阶段

   4、大数据具有哪四个特点?

     4v,volume,variety,velocity,value

  1. 数据量大
  2. 数据种类繁多
  3. 处理速度快
  4. 价值密度低

5、大数据对人类思维方式有什么影响?

    人类思维方式的三种转变:全样而非抽样,效率而非精确,相关而非因果

6、什么是大数据技术,它主要包括哪几方面?

   大数据技术是一系列使用非传统的工具来对大量的结构化,半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。

技术层面:数据采集与预处理,数据存储和管理,数据处理和分析,数据安全和隐私保护。

7、大数据支持哪些计算模式?

  1. 批处理计算
  2. 流计算
  3. 图计算
  4. 查询分析计算

 

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值