虚拟化:
虚拟化技术是伴随着计算机的出现而产生和发展起来的,
虚拟化意味着对计算机资源的抽象。
虚拟化技术已经成为构建云计算环境的一项关键技术。
服务器虚拟化
存储虚拟化
网络虚拟化
客户-服务器模式
对内
只要保证master正常工作,很容易随意添加slave, 硬盘存储空间无限大。
统一存储空间,统一文件接口
对外
整个集群就像是一台机器、一片云,硬盘显示为统一存储空间,文件接口统一。
为提高扩展性,HDFS采用了master/slave架构来构建分布式存储集群,这种架
构很容易向集群中任意添加或删除slave。
namenode统一管理所有slave机器datanode存储空间,
datanode以块为单位存储实际的数据
客户端要访问一个文件
首先,客户端从NameNode获得组成文件的数据块的位置列表
其次,客户端直接从DataNode上读取文件数据
⚫ HDFS将每个文件存储成一系列数据块(Block),块大小可配置,如:64MB、
128M。
⚫ 为了容错,文件的所有数据块都会有副本(副本数量即复制因子,可配置)。
⚫ HDFS的文件都是一次性写入的,并且严格限制为任何时候都只有一个写用户。
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据
文件映射为一张表,并提供类SQL查询功能。
本质是:将HQL转化成MapReduce程序