Hadoop
啊策策
通吃java, 大数据.
展开
-
Yarn资源调度 12
1. yarn调度流程 yarn的主要作用:管理任务,调度资源 resourceManager:主节点,主要用于接收客户端的请求,分配资源 nodeManager:从节点,主要是用于执行我们的任务,说白了就是提供cpu和内存的 ApplicationMaster:主要用于申请资源,分配资源,分配任务,任务生命周期的管理 container:资源分配的单位,所有的任务执行,都在container...原创 2019-03-21 21:02:11 · 214 阅读 · 0 评论 -
MapReduce参数调优 11
1. 资源相关参数 1.1 以下调整参数都在mapred-site.xml这个配置文件当中有 以下参数是在用户自己的mr应用程序中配置就可以生效 mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则会被强制杀死。 mapreduce.reduce.memory.mb: 一个Reduc...原创 2019-03-21 19:59:21 · 437 阅读 · 0 评论 -
MapReduce高阶训练 10
1. 社交粉丝数据分析 1.1 逻辑分析 以下是qq的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的) A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,...原创 2019-03-21 19:38:55 · 266 阅读 · 0 评论 -
MapReduce运行机制详解 09
1. Map的运行机制以及map任务的并行度 1.1 图解 1.2 详解 整个Map阶段流程大体如上图所示。简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map ta...原创 2019-03-21 09:58:05 · 591 阅读 · 0 评论 -
MapReduce习题练习 08
1. 统计求和 1.1 需求 统计每个手机号的上行流量总和,下行流量总和,上行总流量之和,下行总流量之和 1.2 分析 以手机号码作为key值,上行流量,下行流量,上行总流量,下行总流量四个字段作为value值,然后以这个key,和value作为map阶段的输出,reduce阶段的输入 1.3 代码 1.3.1 自定义map的输出value对象FlowBean public class FlowB...原创 2019-03-20 20:21:19 · 2668 阅读 · 2 评论 -
分布式计算框架MapReduce入门、MR程序编写wordCount 06
1. 理解MapReduce思想 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。 Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没...原创 2019-03-20 19:09:51 · 269 阅读 · 0 评论 -
MapReduce增强 07
1. 分区以及reduceTask的个数 1.1 概念 分区:主要的作用就是决定我们数据去到哪一个reduceTask里面去 物以类聚,人以群分。相同key的数据发送到同一个reduce里面去 csv格式的数据可以直接被excel加载。excel是一个很强大的数据库。excel里面有很多的函数,日期,时间,金额,求最大值,求最小值,平均值 比较早的时候,很多做数据统计的人都是使用的excel。e...原创 2019-03-20 19:51:11 · 195 阅读 · 1 评论 -
分布式文件存储系统HDFS 05
1.分布式文件系统详细介绍 在hadoop当中,分布式文件系统(HDFS),对文件系统有一个抽象,HDFS属于当中的一个实现类,也就是说分布式文件系统类似于一个接口,定义了标准,下面有很多的实现类,其中HDFS是一个子实现类而已,但是现在很多人都只知道一种就是HDFS的实现,并没有了解过其他的实现类,其实分布式文件系统的实现有很多种, 具体详细参见hadoop权威指南第三版第59页 2. HDF...原创 2019-03-19 21:31:46 · 226 阅读 · 0 评论 -
hadoop架构知识 04
1.hadoop的架构模型: 1.x架构模型: hdfs:分布式文件存储系统 namenode:主节点,管理元数据信息,接收客户端的请求 元数据信息:描述数据的数据 datanode:从节点 存储数据 mapreduce:分布式的文件计算系统 JobTracker: 主节点,接收客户端的计算任务请求,分配任务 taskTracker:从节点,执行jobtracker...原创 2019-03-19 20:54:14 · 167 阅读 · 0 评论 -
初始大数据-虚拟机配置hadoop伪分布式_02
1. linux集群情况 1. window 宿主192.168.137.188 node01.hadoop.com node01 192.168.137.100 00:50:56:3D:7D:CC root 123456 node02.hadoop.com node02 192.168.137.110 00:50:56:3D:2F:CC root 123456 node...原创 2019-03-19 09:18:41 · 241 阅读 · 0 评论 -
配置虚拟机 01
三台虚拟机创建并联网 第一种方式: 通过iso镜像文件进行安装 创建一台虚拟机出来 为我们的虚拟机挂载操作系统 开启虚拟机,安装虚拟机操作系统 配置虚拟机连接网络 修改linux的mac地址 修改mac地址配置文件 vim /etc/udev/rules.d/70-persistent-net.rules 修改网络配置 v...原创 2019-03-11 17:07:44 · 203 阅读 · 0 评论