Hadoop
Jtnarata
这个作者很懒,什么都没留下…
展开
-
Hadoop的shuffle和排序
目录map 端reduce 端配置调优map 端调优属性reduce 端的调优属性系统进行排序、将 map 输出作为输入传给 reducer 的过程被称为 shuffle。map 端map 函数开始产生输出时,会利用缓冲的方式写到内存并出于效率的考虑进行预排序。每个 map 任务都有一个环形内存缓冲区用于存储任务输出,默认缓冲区大小为 100MB,可通过 mapreduce.task.i...原创 2019-10-21 16:47:20 · 394 阅读 · 0 评论 -
Hadoop学习笔记:关于YARN
Apache Yarn :Hadoop集群资源管理系统运行机制提供请求和使用集群资源的API,但很少直接用于用户代码;用户代码中使用的大多是分布式计算框架提供的更高层API,这些API建立在Yarn之上,且向用户隐藏了资源管理细节。Yarn 通过两类长期运行的守护进程提供自己的核心服务:管理集群上资源使用的资源管理器(resource manager)、运行在集群中所有节点上且能够启动和监控...原创 2019-01-28 20:48:48 · 214 阅读 · 0 评论 -
Hadoop学习笔记:MapReduce 编程进阶
数据类型Hadoop 使用派生于 Writable 接口的类作为 Mapreduce 计算的数据类型。value 数据类型,必须实现 org.apache.hadoop.io.Writable 接口,此接口确定了如何进行序列化与反序列化。key 数据类型必须实现 org.apache.hadoop.io.WritableComparable 接口,定义了键的相互比较。WritableCom...原创 2019-02-15 14:42:28 · 636 阅读 · 0 评论 -
Hadoop学习笔记:Hive详解
基础hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。用来开发SQL类型脚本用于做MapReduce操作的平台。架构单元名称操作用户接口/界面Hive是一个数据仓库基础工具软件,可以创建用户和HDFS之间互动。用户界面,Hive支持是Hive的We...原创 2019-02-12 11:51:09 · 240 阅读 · 0 评论 -
Hadoop 学习笔记:关于 Spark
Spark 是用于大数据处理的集群计算框架,没有以 MapReduce 作为执行引擎,而是使用了自己的分布式运行环境在集群上执行工作。Spark 与 Hadoop 紧密集成,他可以在 YARN 上运行,并支持 Hadoop 文件格式及其存储后端(如 HDFS 等)。Spark 将作业与作业之间产生的大规模的工作数据集存储在内存中,性能比 MapReduce 可高出一个数量级。从 Spark ...原创 2019-02-14 14:50:16 · 220 阅读 · 0 评论 -
Hadoop学习笔记:Zookeeper 基础
是 Hadoop 的分布式协调服务从设计模式角度来看,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper 就将负责通知已经在 Zookeeper 上注册的那些观察者做出相应的反应,从而实现集群中类似 Master/Slave 管理模式解决什么问题统一命名服务(Name Service)将有层...原创 2019-02-12 12:00:49 · 182 阅读 · 0 评论 -
Hadoop学习笔记:HDFS 基础
HDFS:Hadoop Distributed FilesystemHDFS 的设计HDFS 以流式数据访问模式来存储超大文件,运行于商用硬件集群上。特点超大文件:指几百 MB、几百 GB 甚至几百 TB。流式数据访问:HDFS 的构建思路是,一次写入,多次读取;每次数据分析都将涉及数据集的大部分甚至全部,因此,读取整个数据集的时间延迟比读取一条记录的时间延迟更重要。商用硬件:Ha...原创 2019-02-12 12:03:09 · 229 阅读 · 0 评论 -
Hadoop FS 命令详解
FS Shell调用文件系统(FS)Shell命令应使用 hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme。一个H...原创 2019-02-25 10:44:39 · 8048 阅读 · 0 评论 -
Hadoop 用户命令详解
Hadoop 集群用户的常用命令hadoop [–config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS]archive创建一个hadoop档案文件。hadoop archive -archiveName NAME * 命令选项描述-archiveName NAME要创建的档案的名字sr...原创 2019-02-25 11:46:04 · 2835 阅读 · 0 评论