大数据
文章平均质量分 92
大数据相关
Maslow503
一个程序员
展开
-
Hadoop学习-关于 YARN 的一些概念
简介YARN (Yet Another Resource Negotiator,另一种资源调度器)是Hadoop的集群资源管理系统,最初被引入Hadoop 2,是为了改善mapreduce的实现,基本设计思想是将旧MR中的JobTracker 拆分重构,减少JobTracker 的负担,解决单点故障问题,提高资源利用率Hadoop 1.0 架构JobTracker 必须不断跟踪所有Ta...原创 2020-04-21 14:15:16 · 327 阅读 · 0 评论 -
Hadoop学习-关于MapReduce
MapReduce 是一种可用于数据处理的编程模型。MapReduce 任务过程分为两个处理阶段:map阶段和reduce阶段。每个阶段都是以键-值对作为输入和输出。这些阶段任务运行在集群上的节点上,并通过YARN进行调度,如果一个任务失败,它将在另一个不同的节点上自动重新调度运行。MapReduce 程序本质上是并行运行的,因此可以将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心。M...原创 2020-04-20 13:17:44 · 543 阅读 · 0 评论 -
Hive学习- 一些基础概念
Hive 是什么Hive 基于一个统一的查询分析层,通过SQL语句的方式对HDFS的数据进行查询、统计和分析Hive 是一个SQL解析引擎,将SQL语句转译成MR Job,然后在Hadoop平台上进行,达到快速开发的目的。Hive中的表是纯逻辑表,就只是表的定义等,即表的元数据。本质就是Hadoop的目录文件,达到了元数据与数据存储分离的目的Hive本身不存储数据,它完全依赖HDFS和M...原创 2020-04-25 15:56:34 · 180 阅读 · 0 评论 -
Hadoop学习-分布式文件系统HDFS的一些概念
当数据集的大小超过一台独立的物理计算机的存储能力是,就有必要对它进行分区(partition)并存储到若干台单独的计算机上。管理网络中跨多台计算机存储的文件系统称为分布式文件系统(distributed filesystem)。Hadoop 自带一个HDFS 的分布式文件系统,即 Hadoop Distributed Filesystem。HDFS 的设计超大文件 指的是具有几百MB、几百...原创 2020-04-19 08:55:55 · 260 阅读 · 0 评论 -
Hadoop学习-HDFS读写流程
HDFS 读流程客户端通过调用FileSystem对象的open()方法来打开读取的文件。DistributedFileSystem通过远程调用namenode,以确定文件起始块的位置。对于每一个块,namenode返回存有该块副本的datanode地址。这些datanode根据它们与客户端的距离来排序(根据集群的网络拓扑)。如果该客户端本身就是一个datanode,那么该客户端将会从保存...原创 2020-04-24 11:30:22 · 177 阅读 · 0 评论