大数据实训第二天

HDFS(Hadoop分布式文件系统)是一个用于存储和处理大规模数据的分布式文件系统。它通过分块存储和并行读取的策略来处理大文件,通过合并存储和元数据压缩的策略来处理小文件。

对于大文件的存储和访问,HDFS采用了分块存储和并行读取的策略。具体来说,大文件在存储到HDFS时,会被分割为多个数据块,并存储在不同的DataNode上。这样可以实现数据的并行写入和读取,提高存储和访问效率。同时,HDFS还会对每个数据块进行冗余备份,以保证数据的可靠性和高可用性。首先,将大文件分割为128MB大小的数据块,并使用缓冲区读取数据块的内容。
然后,为每个数据块生成一个唯一的标识,并选择一个DataNode作为目标节点。
接下来,将数据块写入目标节点,并更新元数据信息,包括文件名、数据块标识和目标节点。
重复上述步骤,直到所有数据块都被写入。
在读取大文件的过程中,首先获取文件的数据块信息,然后按顺序从对应的DataNode读取数据块,并将数据块写入输出流。对于小文件的存储和访问,HDFS采用了合并存储和元数据压缩的策略。具体来说,小文件在存储到HDFS时,会被合并为一个或多个数据块,以减少元数据的开销。同时,HDFS还会对元数据进行压缩,以进一步减少存储空间的占用。首先,将小文件的内容读取到一个字节数组中。然后,为数据块生成一个唯一的标识,并选择一个DataNode作为目标节点。
接下来,将数据块写入目标节点,并更新元数据信息,包括文件名、数据块标识和目标节点。
在读取小文件的过程中,首先获取文件的数据块信息,然后从对应的DataNode读取数据块,并将数据块写入输出流。

Hive是一个基于Hadoop的数据仓库工具,它提供了一种类似于SQL的查询语言,使用户可以方便地在Hadoop集群上进行数据分析和查询。Hive的架构是一个典型的客户端-服务器架构,用户通过Hive客户端提交查询请求,Hive Driver解析查询并生成相应的MapReduce任务,然后将任务提交给Hadoop集群执行,最终将结果返回给用户。元数据信息存储在Hive Metastore中,可供查询和管理。我学习了Hive的客户端、Driver、Metastore和Server等组件的功能和作用,了解了它们之间的交互关系。我也学习了如何通过Hive客户端提交SQL查询,并了解了Hive Driver是如何解析查询并生成MapReduce任务的过程。此外,我还学习了Hive Metastore的重要性,它存储了Hive表的元数据信息,对于表的管理和查询非常重要。

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值