半结构化数据是结构化数据的一种形式,半结构化数据就是介于完全结构化数据和完全无结构的数据之间的数据。例如HTML文档,JSON,XML和一些NoSQL数据库等就属于半结构化数据。
3.非数据化数据库
非结构化数据顾名思义,就是没有固定结构的数据。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频信息等等都属于非结构化数据。
三.Hadoop的优势
- 扩容能力强
- 成本低
- 高效率
- 可靠性
- 高容错性
四.Hadoop生态圈
指以Hadoop为基础的生态圈,是一个很庞大的体系,Hadoop只是其中最重要、最基础的一部分;生态圈中的每个子系统只负责解决某一个特定的问题区域,甚至可能更小,它并不是一个全能系统,而是多个小的系统的集成。Hadoop生态圈的构成如下图:
五.Hadoop HDFS架构
HDFS(Hadoop Distribute File System)分布式文件系统
分布式文件系统 distributed file system 是指文件系统管理的物理存储资源不一定直接链接在本地节点上,而是通过计算机网络与节点相连,可让多机器上的多用户分享文件和存储空间。分布式文件系统的设计基于客户机/服务器模式
HDFS架构图如下图所示:
HDFS优势:
1、可构建在廉价机器上,设备成本相对低
2、高容错性
3、适合批处理
4、适合存储大文件
HDFS劣势:
1、由于提高吞吐量,降低实时性
2、如果存储了大量的小文件,会对造成很大的压力
3、不合适小文件处理
4、不适合文件的修改,文件只能追加在文件的末尾,不支持任意位置修改,不支持多个写入者操作
六.HDFS读的流程
先上图:
1.HDFS客户端远程调用Namenode,查询元数据信息,获得这个文件的数据块位置列表,返回封装DFSIntputStream的HdfsDataInputStream输入流对象。
2.客户端选择一台可用Datanode服务器,请求建立输入流。
3.Datanode向输入流中写原始数据和以packet为单位的checksum。
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!