Hadoop
Saikikky
这个作者很懒,什么都没留下…
展开
-
初识Hadoop
Hadoop权威指南第四版第二章代码运行在github上拿到本书源代码hadoop-book-master后按照项目中的Readme里面的步骤进行jar包准备工作,具体内容不细说。export HADOOP_CLASSPATH=hadoop-examples.jarhadoop MaxTemperature input/ncdc/sample.txt output上面两行代码是用...原创 2018-11-14 21:51:42 · 238 阅读 · 0 评论 -
MapReduce的类型与格式
MapReduce的类型一般来说,map函数的输入的键值对类型(K1,V1)不同于输出类型(K2,V2),但reduce函数的输入类型必须与map函数的输出类型相同,但reduce函数的输出类型(K3,V3)可以不同于输入类型。如果使用combiner函数,它与reduce函数形式相同,不同之处是它的输入类型是中间的键-值对类型(K2,V2),这些中间值可以输入reduce函数如下图:...原创 2018-12-26 14:59:14 · 1594 阅读 · 0 评论 -
MapReduce的工作流
如何将数据处理问题转化为MapReduce模型数据处理问题更复杂,通常是因为有更多的MapReduce作业,而不是更复杂的map函数和reduce函数,换而言之,通常是增加更多的作业,而不是增加作业的复杂度。对于更复杂的问题,可考虑比MapReduce更高级的语言,例如Pig、hive、Spark等,有了他们之后,就不用处理到MapReduce作业的转换,而是集中精力分析正在执行的任务。一...原创 2018-12-06 15:18:37 · 365 阅读 · 0 评论 -
Hadoop的I/O操作
数据完整性HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和。datanode负责在收到数据后存储该数据及其校验和之前对数据进行验证。datanode的管线中最后一个datanode执行校验。HDFS存储着每一个数据块的复本,因此可以通过数据复本来修复锁坏的数据块。可以用hadoop的命令fs -checksum来检查一个文件的校验和,可用于检查HDFS中两个文件是否具有相同的内容...原创 2018-11-27 15:52:46 · 469 阅读 · 0 评论 -
MapReduce的工作机制
Streaming运行特殊的map任务和reduce任务,目的是运行用户提供的可执行程序,并与之通信。关于任务进度,对map任务,任务进度是已处理输入所占的比例,对于reduce任务,分为三个阶段与shuffle的三个阶段相对应。关于shuffle和排序(shuffle是优化MapReduce非常重要的部分)MapReduce确保每个reducer的输入是按键排序的。系统执行排序,将m...原创 2018-12-06 15:17:21 · 361 阅读 · 0 评论 -
HDFS文件系统的基本操作
从本地系统复制一个文件到HDFShadoop fs -copyFromLocal input/text.txt \ hdfs://localhost/user/saikikky/text.txt上述命令可以将本地的text.txt文件复制到运行在localhost上的HDFS实例中,且上面命令的hdfs://localhost可以省略读文件可以通过FileSystem API读...原创 2018-11-20 14:38:39 · 842 阅读 · 0 评论 -
Hadoop学习之Yarn
Yarn是Hadoop的集群资源管理系统,一些分布式计算框架(MapReduce,Spark等)作为Yarn应用运行在集群计算层(Yarn)和集群存储层(HDFS和HBase),而Pig,Hive等应用是运行在分布式计算框架之上。Yarn提供了三个调度器:FIFO调度器:队列,先进先出运行应用,不适合共享集群,小作业容易被大作业阻塞。容量调度器:一个独立的队列保证小作业一提交就可以启动...原创 2018-11-22 09:19:03 · 219 阅读 · 0 评论 -
HDFS
namenode的目录结构 namenodeID是文件系统命名空间的唯一标识符,是在namenode首次格式化时创建的。clusterID是将HDFS集群作为一个整体赋予的唯一标识符,对于联邦HDFS非常重要,这里一个集群由多个命名空间组成,且每个命名空间由一个namenode管理。blockpoolID是数据块池的唯一标识符,数据块池中包含了由一个namenode管理的命名空间中的所...原创 2019-01-29 19:33:48 · 242 阅读 · 0 评论