大数据体系
文章平均质量分 82
dodo_man
IT界的小鲜肉
展开
-
Hive之快速入门
一、什么是Hive Hive是建立在Hadoop上的数据仓库基础架构。它定义了简单的类SQL查询语句,称为HQL,HQL语言也支持用户自定义SQL函数,通过MR任务来处理复杂的分析任务。Hive中包含SQL解析引擎,它会将SQL语句转换成MR job在Hadoop中执行 Hive中的数据表在HDFS中的体现是文件 Hive数据存储是基于Hadoop的HDFS的,Hive默认直接加载文本文件(TextFile),还支持SequenceFile,RCFile等二、Hive系统架构...原创 2021-04-07 21:53:46 · 299 阅读 · 0 评论 -
Hive之表类型解析
Hive的表在HDFS里面体现都是文件1、内部表 内部表示Hive中默认的表类型,表数据默认存储在warehouse目录下,即使我们使用load data的方式,Hive也会在数据拷贝在warehouse目录下,当我们创建内部表时,Hive会在warehouse下创建表名的目录存储数据文件,同时会在metastore维护元数据信息,当我们删除表的时候,表的数据会删除,同时metastore中的元数据信息也会同时删除。2、外部表 外部表在加载数据的时候,实际数据并不会移...原创 2021-04-07 21:52:44 · 651 阅读 · 0 评论 -
HDFS之namenode文件解析
一、HDFS体系结构 HDFS支持主从结构,主节点称为NameNode,从节点称为DateNode,DataNode支持多个节点。HDFS还包含一个SecondaryNameNode进程,表面意思是一个辅助主节点(备用主节点)伪分布式单节点JPS进程:网络部署结构图:1.NameNode进程 NameNode是整个文件系统的管理节点,它主要维护着整个文件系统的文件目录树、文件/目录的信息和每个文件对应的数据块列表,并且还负责接收用户的操作请求。目录树:目录之间的层...原创 2021-04-07 21:52:11 · 3140 阅读 · 0 评论