hadoop
麦才坚
这个作者很懒,什么都没留下…
展开
-
hadoop集群搭建
HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode / DataNodeYARN集群:负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager本集群搭建为例,以5节点为例进行搭建,角色分配如下:原创 2018-01-21 20:22:42 · 241 阅读 · 0 评论 -
Hadoop机制详解
Hadoop各个组件的关联图如下:Resource Manager 是资源管理器,它是所有组件的中心,负责集群所有资源的调度APP mstr是应用程序管理器,负责作业的运行时的追踪和管理,并协调resource manager 请求资源,获取资源创造containerNode manager 是节点资源管理器,运行在改服务器节点上,负责对该节点资源和其它信息的监控,并发送给resource man...原创 2018-04-01 14:17:50 · 1150 阅读 · 0 评论 -
HADOOP 中map和reduce的并行度设置的问题
1.3 MapTask并行度决定机制maptask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度那么,mapTask并行实例是否越多越好呢?其并行度又是如何决定呢? 1.3.1 mapTask并行度的决定机制一个job的map阶段并行度由客户端在提交job时决定而客户端对map阶段并行度的规划的基本逻辑为:将待处理数据执行逻辑切片(即按照一个特定原创 2018-02-04 17:57:12 · 4033 阅读 · 0 评论 -
自定义的inputformat和outputformat举例
1. 自定义inputFormat1.1 需求无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案 1.2 分析小文件的优化无非以下几种方式:1、 在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS2、 在业务处理之前,在HDFS上使用mapreduce程序对小文件进行合并3、 在m转载 2018-01-23 22:05:53 · 1273 阅读 · 0 评论 -
web日志预处理(hadoop java)
web日志预处理1、需求:对web访问日志中的各字段识别切分去除日志中不合法的记录根据KPI统计需求,生成各类访问请求过滤数据 2、实现代码:a) 定义一个bean,用来记录日志数据中的各数据字段public class WebLogBean { private String remote_addr;// 记录客户端的ip地址原创 2018-01-23 21:56:14 · 1091 阅读 · 0 评论 -
hadoop在本地上运行调试的配置
(1)mapreduce程序是被提交给LocalJobRunner在本地以单进程的形式运行(2)而处理的数据及输出结果可以在本地文件系统,也可以在hdfs上(3)怎样实现本地运行?写一个程序,不要带集群的配置文件(本质是你的mr程序的conf中是否有mapreduce.framework.name=local以及yarn.resourcemanager.hostname参数)(4)本地原创 2018-01-23 21:37:33 · 874 阅读 · 0 评论 -
hdfs详解
******HDFS基本概念篇******1. HDFS前言l 设计思想分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析; l 在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 l 重点概念:文件切块,副本存放,元数据 2. HDFS的概念转载 2018-01-21 21:30:25 · 245 阅读 · 0 评论 -
hadoop wordcount 详解
mapreduce hadoop中的分布式运算编程框架,只要按照其编程规范,只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序Demo开发——wordcount1、需求从大量(比如T级别)文本文件中,统计出每一个单词出现的总次数 2、mapreduce实现思路Map阶段:a) 从HDFS的源数据文件中逐行读取数据b) 将每一行数据切分出单词c)原创 2018-01-21 20:42:07 · 609 阅读 · 0 评论