大数据实训第二天

最新推荐文章于 2024-07-26 13:52:53 发布

言珮

最新推荐文章于 2024-07-26 13:52:53 发布

阅读量466

点赞数 3

文章标签：大数据

本文链接：https://blog.csdn.net/2303_78420195/article/details/138138224

版权

HDFS（Hadoop分布式文件系统）是一个用于存储和处理大规模数据的分布式文件系统。它通过分块存储和并行读取的策略来处理大文件，通过合并存储和元数据压缩的策略来处理小文件。

对于大文件的存储和访问，HDFS采用了分块存储和并行读取的策略。具体来说，大文件在存储到HDFS时，会被分割为多个数据块，并存储在不同的DataNode上。这样可以实现数据的并行写入和读取，提高存储和访问效率。同时，HDFS还会对每个数据块进行冗余备份，以保证数据的可靠性和高可用性。首先，将大文件分割为128MB大小的数据块，并使用缓冲区读取数据块的内容。
然后，为每个数据块生成一个唯一的标识，并选择一个DataNode作为目标节点。
接下来，将数据块写入目标节点，并更新元数据信息，包括文件名、数据块标识和目标节点。
重复上述步骤，直到所有数据块都被写入。
在读取大文件的过程中，首先获取文件的数据块信息，然后按顺序从对应的DataNode读取数据块，并将数据块写入输出流。对于小文件的存储和访问，HDFS采用了合并存储和元数据压缩的策略。具体来说，小文件在存储到HDFS时，会被合并为一个或多个数据块，以减少元数据的开销。同时，HDFS还会对元数据进行压缩，以进一步减少存储空间的占用。首先，将小文件的内容读取到一个字节数组中。然后，为数据块生成一个唯一的标识，并选择一个DataNode作为目标节点。
接下来，将数据块写入目标节点，并更新元数据信息，包括文件名、数据块标识和目标节点。
在读取小文件的过程中，首先获取文件的数据块信息，然后从对应的DataNode读取数据块，并将数据块写入输出流。

Hive是一个基于Hadoop的数据仓库工具，它提供了一种类似于SQL的查询语言，使用户可以方便地在Hadoop集群上进行数据分析和查询。Hive的架构是一个典型的客户端-服务器架构，用户通过Hive客户端提交查询请求，Hive Driver解析查询并生成相应的MapReduce任务，然后将任务提交给Hadoop集群执行，最终将结果返回给用户。元数据信息存储在Hive Metastore中，可供查询和管理。我学习了Hive的客户端、Driver、Metastore和Server等组件的功能和作用，了解了它们之间的交互关系。我也学习了如何通过Hive客户端提交SQL查询，并了解了Hive Driver是如何解析查询并生成MapReduce任务的过程。此外，我还学习了Hive Metastore的重要性，它存储了Hive表的元数据信息，对于表的管理和查询非常重要。

言珮

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
大数据实训第二天

Hive的架构是一个典型的客户端-服务器架构，用户通过Hive客户端提交查询请求，Hive Driver解析查询并生成相应的MapReduce任务，然后将任务提交给Hadoop集群执行，最终将结果返回给用户。在读取大文件的过程中，首先获取文件的数据块信息，然后按顺序从对应的DataNode读取数据块，并将数据块写入输出流。首先，将大文件分割为128MB大小的数据块，并使用缓冲区读取数据块的内容。在读取小文件的过程中，首先获取文件的数据块信息，然后从对应的DataNode读取数据块，并将数据块写入输出流。
复制链接

扫一扫