hadoop
文章平均质量分 63
大腿配件
这个作者很懒,什么都没留下…
展开
-
Hadoop(一)
Hadoop数据类型–MapReduce的输入 1、Writable和WritableComparable接口 Writable含write()和readFileds()两方法,当数据在网络上传输或从硬盘读写时,提供数据的序列化和反序列化机制,所有用作mapper/reducer输入输出值的类型都须实现(v1/v2/v3),用作键的k1,k2,k3还需实现Comparable接口2、wrappe原创 2017-08-07 23:48:44 · 188 阅读 · 0 评论 -
Hadoop学习记录---MapReduce的输入
一、输入格式InputFormat 运行一个MapReduce时,我们需要为作业指定它的输入格式。InputFormat是所有输入格式的抽象基类,有两个抽象方法。 List getSplits(JobContext jc)作用是将输入文件分割成逻辑上的多个分片InputSplit,而不是将文件分割成多个数据块。 RecordReader createRecordRea原创 2018-01-11 22:49:39 · 201 阅读 · 0 评论 -
Hadoop 安装
Linux: 安装 1、从apache网站http://hadoop.apache.org/releases.html下载,其中src是要编译的,bin可以直接解压安装2、下载JDK,一路确定安装后,配置环境变量,JAVA_HOME=C:\Program Files\Java\jdk1.8.0_65(这是我的),PATH=%JAVA_HOME%\bin;等,在shell输入java -versio原创 2017-08-04 02:05:23 · 192 阅读 · 0 评论 -
Hadoop(七)---MapReduce计算模型
MR架构(1.x) 1、主从结构 主节点:只有一个JobTracker(HA有多个) 从节点: 多个TaskTracker2、JobTracker——>对应NameNode (1)负责接受并处理客户请求 (2)负责资源监控和作业调度 (3)分配任务给TaskTracker3、TaskTracker,执行分配任务—->对应于DataNode MapReduce的过程: 编写实体类,继承原创 2017-08-08 01:37:13 · 318 阅读 · 0 评论 -
Hadoop(六)--->核心设计
1、安全模式(safemode) NameNode在启动时自动进入安全模式,也可手动操作,当在安全模式时,会检查数据完整性。 命令: hadoop dfsadmin -safemode leave 强制退出 enter 进入原创 2017-08-08 01:21:49 · 165 阅读 · 0 评论 -
Hadoop(五)----API 操作
1、要从HDFS文件系统中读取文件,最简单的就是使用Java.net.URL对象打开数据流读取数据 2、要让Java程序识别Hadoop的HDFS的URL,需采用FsUrlStreamHandlerFactory实例调用URL中的setURLStreamHandlerFactory方法,(JVM只调用一次上述方法,因此可考虑设为static方法) static{ UR原创 2017-08-08 00:56:24 · 207 阅读 · 0 评论 -
Hadoop(四)----流程
项目的基础配置包括:项目的配置文件;集群信息配置。基础代码的实现:实现工具类和实体类;清洗HDFS数据。如何学习Hadoop:原理和运行机制;操作、开发程序。Google的基本思想(奠定Hadoop的原理和运行机制):(1)GFS,Google File System,分布式文件系统--->数据存储--->HDFS(Hadoop Distributed File System)(2)Page原创 2017-08-08 00:34:11 · 154 阅读 · 0 评论 -
Hadoop(三)
Reduce任务 这是数据聚合的步骤,默认是1,数量通过mapreduce.job.reduces设置,或者编程方式(调用Job对象的setNumReduceTasks()) 一个Reduce能并行处理多少个Map任务获取数据由mapreduce.shuffle.reduce.parallelcopies参数决定MapReduce作业的计数器 一个简单的自定义计数器 (1)创建一计数器,用其原创 2017-08-07 23:49:44 · 141 阅读 · 0 评论 -
Hadoop(二)
Map任务 让map任务处理更大的块容量,可以通过: (1)通过增加参数fileinputformat.split.minsize,使其大于块的容量; (2)增加文件储存在HDFS中的块容量Map任务产生的中间输出记录使用环形缓冲区,大小通过mapreduce.task.io.sort.mb设置,默认100,会被mapred-default.xml或mapred-site.xml的值冲掉由ma原创 2017-08-07 23:49:21 · 165 阅读 · 0 评论 -
Hadoop学习记录---MapReduce并行计算模型之介绍
目录:1、简单说明 2、任务角色 3、任务流程 4、优化简单说明MapReduce分为Map和Reduce阶段,一个任务会先将输入的数据切分成独立的小块,被Map任务在DataNode中处理,实现分布处理,然后将Map任务的结果汇总到Reduce任务中做进一步汇总处理,最后输出。因为Hadoop是将计算放在数据节点上,而不是数据放在数据节点,所以计算和存储结点相同。任务原创 2018-01-10 23:04:18 · 1012 阅读 · 0 评论