Hadoop
Nicky_1218
一只总想着吃肉的死胖子。
安安静静的做着肥宅。
(保持一颗不断学习的心)
展开
-
Hive与传统数据仓库的比较
知识的整理。 Hive 数据仓库 存储 HDFS,理论上有无限拓展的可能。 集群存储,存在容量上线。伴随容量上升,分析性能下降,只能适用于数据量比较小的商业应用,对于超大规模的数据无能为力。 执行引擎 依赖于MapReduce框架,可进行的各类优化比较少,但是比较简单。 可以执行更加高效的算法,也可以进行更多的优化措施来提.原创 2022-01-04 11:04:37 · 504 阅读 · 0 评论 -
Hive——架构中一些名词的解释
整理知识。Metastore存储表,列,partition等元数据,为关系型数据库。Compiler编译HiveQL并将其转化为一系列的相互依赖的Map/Reduce任务。Optimizer优化器,分为逻辑优化器跟物理优化器。分别对HiveQL生产的执行计划跟MapReduce任务进行优化。Execution Engine按照任务的依赖关系分别执行Map/Reduce任务。Thrift Server提供thrift接口,作为JDBC , ODBC原创 2021-12-29 15:49:44 · 2017 阅读 · 0 评论 -
HDFS存储结构剖析(HADOOP)
MAIN:HDFS分布式文件系统NameNodeNameNode是一个中心服务器,单一节点,负责管理文件系统的namespace以及客户端对文件的访问。 文件操作,NameNode负责文件元数据的操作,DataNode负责处理文件内容的读写请求,与文件内容相关的数据是不经过NameNode,只会询问它跟那个DataNode联系,否则NameNode会成为系统的瓶颈。...原创 2019-04-29 21:14:55 · 801 阅读 · 0 评论 -
NameNode启动流程(HADOOP)
整理资料吧,温故而知新。MAIN:NameNode启动流程NameNode启动流程NameNode元数据/命名空间 持久化fsimage与edits。 NameNode格式化,会做两件事。一,创建fsimage文件,用来存储fsimage信息。二,创建edits文件。 NameNode的启动流程:加载fsimage和edits文件。 生成新的fsima...原创 2019-04-29 21:32:43 · 579 阅读 · 0 评论 -
HDFS文件读写流程(HADOOP)
GO ON ~MAIN:读文件流程流程:打开分布式文件。调用 分布式文件 DistributeFileSystem.open()。 从NameNode获取DataNode地址。DistributeFileSystem使用RPC调用NameNode,NameNode返回存有该副本的DataNode地址。DistributeFileSystem返回一个输入流FSDat...原创 2019-04-30 09:52:24 · 242 阅读 · 0 评论