2018年01月_星月的雨

原创 HIVE总结

简述CREATE TABLE records2 (station STRING, year STRING, temperature INT, quality INT)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';LOAD DATA LOCAL INPATH '/Users/tom/book-workspace/hadoop-boo

2018-01-30 22:30:54 222

原创 MapReduce的特性

计数器计数器是手机作业统计信息的有效手段之一，用于质量控制或应用级统计，计数器还可以辅助诊断系统故障内置计数器Hadoop为每个作业维护若干内置计数器，如处理的字节数，和记录数计数器分组MapReduce任务计数器TaskCount文件系统计数器FileSystemCounterFileInputFormatFileI

2018-01-29 22:10:39 1459

转载 Spark编程指南

概述在一个较高的概念上来说，每一个 Spark 应用程序由一个在集群上运行着用户的 main 函数和执行各种并行操作的 driver program（驱动程序）组成。Spark 提供的主要抽象是一个弹性分布式数据集（RDD），它是可以执行并行操作且跨集群节点的元素的集合。RDD 可以从一个 Hadoop 文件系统（或者任何其它 Hadoop 支持的文件系统），或者一个在 driver

2018-01-27 14:06:11 442

原创 MapReduce的类型和格式

MapReduce的类型Context类对象用于输出键-值对map: (k1, v1) -> list(k2, v2)combiner: (k2, list(v2)) -> list(k2, v2)reduce: (k2, list(v2)) -> list(k3, v3)partition函数对中间结果的键值对 (k2 , v2)进行处理，并返回一个分区索引

2018-01-23 23:03:17 504

转载 Spark API 详解/大白话解释之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues

map(function) map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例：val a = sc.parallelize(1 to 9, 3)val b = a.map(x => x*2)//x => x*2是一个函数，x是传入参数即RDD的每个元素，x*2是返回值a.collect//结

2018-01-23 21:38:20 665

原创 MapReduce工作机制

作业提交创建一个job实例向ResourceManage请求一个新应用ID将运行所需要的资源复制到一个以作业ID命令的目录下的共享文件系统中通过ResourceManage的submitApplication()方法提交作作业初始化将提交的作业请求传递给Yarn调度器，调度器分配一个容器，资源管理器在节点管理器的管理下，在容器中启动application Maste

2018-01-23 21:30:23 263

原创 MapReduce应用开发

用于配置的API Configuration conf = new Configuration(); conf.addResource("configuration-1.xml"); conf.addResource("configuration-2.xml");辅助类GenericOptionsParser，Tool，ToolRunnerGenericO

2018-01-22 22:51:11 324

原创 Hadoop I/O操作

数据完整性客户端从datanode读取数据时，会验证校验和每个datanode也会在后台线程中运行一个DataBlockScanner，从而定期验证存储在这个datanode中的所有数据块由于Hdfs存储每个数据块的复本，可以通过复本来修复受损的数据块压缩压缩两大好处： 1.减少存储文件所需要的磁盘空间2.加速数据在网络和磁盘上的传输通常使用gzip进行压缩

2018-01-20 12:46:13 303

原创 Yarn 总结

Yarn运行机制客户端程序向ResourceManager提交应用并请求一个ApplicationMaster实例ResourceManager找到可以运行一个Container的NodeManager，并在这个Container中启动ApplicationMaster实例ApplicationMaster向ResourceManager进行注册，注册之后客户端就可

2018-01-20 11:36:45 251

原创 HDFS常用API

URL读取数据InputStream in = null;try { in = new URL("hdfs://hadoop:9000/input/text1.txt").openStream(); IOUtils.copyBytes(in, System.out, 4096, false);}finally{ IOUtils.closeStream(in);}FIleSy

2018-01-18 23:56:15 2125

原创 HDFS文件系统总结

HDFS默认快大小128MHDFS小于一个块大小的文件不会占据整个块空间对文件系统块检查：hdfs fsck / -files -blocksnamenode namenode管理文件系统的命名空间，维护者文件系统及整颗树内所有文件和目录，这些信息以两个文件形式永久保存在本地磁盘上：命名空间镜像文件和编辑日志文件，也记录着每个文件各个块所在的数据节点信息namenode容

2018-01-18 23:42:59 390

数据流Hadoop将MapReduce的输入数据划分成等长小数据块，称为数据分片，Hadoop为每个分片分配一个map分片一个合理的分片大小趋向一个hdfs快大小，默认128M，可以调整整个集群默认值，也可以在任务创建时指定Hadoop在存储有输入数据（hdfs中的数据）的节点上运行map任务，可以获得最佳性能，所谓“数据本地化”map任务将其输出写入硬盘reduce任务不具备数据本地化优势如果有

2018-01-18 23:10:46 253

liu1390910的博客