大数据最全大数据技术与应用_数据应用项目 cdsn-CSDN博客

本文链接：https://blog.csdn.net/2401_84182073/article/details/138433204

本文探讨了非结构化数据的特点及其与结构化数据的区别，重点介绍了Hadoop生态系统中的HDFS架构，包括其优点（如高容错、高数据吞吐量）和局限性（如高延迟和不适合小文件）。同时，文章强调了Hadoop在大数据处理中的优势，如扩展性强、成本低和高效率，以及提供不同层次的学习资源。

摘要由CSDN通过智能技术生成

非结构化数据：

相对于结构化数据(即行数据，存储在数据库里，可以用二维表结构来逻辑表达实现的数据)而言，不方便用数据库二维逻辑表来表现的数据即称为非结构化数据，包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等等。

非结构化数据库是指其字段长度不等，并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库，用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。

3.Hadoop生态圈：

概述：

一个用于分布式大数据处理的开源框架，由Apache基金会所开发的分布式系统基础框架，允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。同常是指一个更广泛的概念-Hadoop生态圈。

4.Hadoop HDFS架构：

HDFS的优点： HDFS的缺点：

（1）高容错；（1）高延迟；

（2）流式数据访问；（2）不适合小文件存取；

（3）支持超大文件；（3）不适合并发写入。

（4）高数据吞吐量。

HDFS流程：

HDFS读文件的流程包括：客户端向NameNode发送读取文件的请求，NameNode验证权限和路径并返回文件的元数据信息，客户端根据元数据信息获取数据块所在的数据节点列表，客户端与数据节点建立连接并发送读取数据块的请求，数据节点将数据块发送给客户端，客户端接收并处理数据块，通过重复这个过程直到读取完所有数据块。

5.HDFS读的流程：

HDFS客户端通过DistributedFileSystem对象的open(方法打开要读取的文件。
DistributedFileSystem负责向远程的名称节点( NameNode)发起RPC调用，得到文件的数据块信息，返回数据块列表。对于每个数据块，NameNode返回该数据块的DataNode地址。
DistributedFileSystem返回-一个FSDatalnputStream对象给客户端，客户端调用FSData-InputSream 对象的read0方法开始读取数据。
通过对数据流反复调用read()方法，把数据从数据节点传输到客户端。
当一个节点的数据读取完毕时，DFSInputStream 对象会关闭与此数据节点的连接，连接此文件下一个数据块的最近数据节点。
当客户端读取完数据时，调用FSDataInputStream 对象的close()方法关闭输入流。