大数据-Hadoop
文章平均质量分 59
两榜进士
if you are not inside,you are outside.
展开
-
Hadoop的Mapreduce运行原理详解
[-]Map-Reduce的逻辑过程Map-Reduce数据流data flow任务提交任务初始化任务分配任务执行 Map的过程 Reduce的过程任务结束我们通过下面这个天气数据处理的例子来说明Hadoop的运行原理.1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照AS转载 2016-03-23 16:37:41 · 744 阅读 · 0 评论 -
Hadoop HA高可用集群搭建(2.7.2)
1.集群规划: 主机名 IP 安装的软件 运行的进程drguo1 192.168.80.149 jdk、hadoop NameNode、DFSZKFailoverController(zkfc)、ResourceManagerd转载 2016-10-21 15:48:12 · 1681 阅读 · 1 评论 -
Hadoop2.6(NN/RM)高可用集群安装与部署
Hadoop2对HDFS的改进很大,支持HDFS(NameNode) 和ResourceManager高可用性,避免集群中单点故障造成整个集群不可用。那么,从本文开始将部署一套高可用Hadoop集群及家族中相关开源系统,具体根据下面规划来,本文只部署高可用Hadoop集群,后续很快更新其他软件部署及使用。一、部署前准备操作系统:CentOS7_x64安装目录:/opt转载 2016-10-21 16:03:34 · 2048 阅读 · 0 评论 -
Hadoop YARN的工作流程
第一步: 客户端向 ResourceManager 提交自己的应用。第二步: ResourceManager 向 NodeManager 发出指令,为该应用启动第一个 Container ,并在其中启动 ApplicationMaster。第三步: ApplicationMaster 向 ResourceManager 注册。第四步: ApplicationM原创 2016-12-14 17:40:26 · 679 阅读 · 0 评论 -
YARN的内存和CPU配置
Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有一定的内存以及CPU资源。在YARN集群中,平衡内存、CPU、磁盘的资源的很重要的,根据转载 2016-11-21 09:50:07 · 409 阅读 · 0 评论 -
Hadoop Journal Node 作用
NameNode之间共享数据(NFS 、Quorum Journal Node(用得多))两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息,并且一直监控edit log的变化,把变转载 2016-12-08 10:38:09 · 732 阅读 · 0 评论 -
Hadoop map和reduce的个数
1.map和reduce的数量过多会导致什么情况?2.Reduce可以通过什么设置来增加任务个数?3.一个task的map数量由谁来决定?4.一个task的reduce数量由谁来决定?一般情况下,在输入源是文件的时候,一个task的map数量由splitSize来决定的,那么splitSize是由以下几个来决定的goalSize = totalSize / mapred转载 2016-12-15 15:52:17 · 435 阅读 · 0 评论 -
Hadoop集群搭建之SSH无密码登录配置
一、准备工作1) 用客户端工具(ssh client或者putty)连接到linux服务器。在root用户下输入命令:vi /etc/hosts ,用vi编辑hosts文件,如下:#127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4#::1 lo转载 2016-06-30 14:34:03 · 1660 阅读 · 0 评论 -
MapReduce相关参数
MapReduce相关配置参数分为两部分,分别是JobHistory Server和应用程序参数,Job History可运行在一个独立节点上,而应用程序参数则可存放在mapred-site.xml中作为默认参数,也可以在提交应用程序时单独指定,注意,如果用户指定了参数,将覆盖掉默认参数。以下这些参数全部在mapred-site.xml中设置。1. MapReduce Job转载 2017-02-06 16:39:21 · 1435 阅读 · 0 评论 -
MapReduce中的map个数
在map阶段读取数据前,FileInputFormat会将输入文件分割成split。split的个数决定了map的个数。公式:InputSplit=Math.max(minSize, Math.min(maxSize, blockSize)影响map个数(split个数)的主要因素有:mapreduce.input.fileinputformat.split.minsize 默认值 0原创 2017-02-08 15:27:18 · 942 阅读 · 0 评论 -
【hadoop】——压缩工具比较
文件压缩主要有两个好处,一是减少了存储文件所占空间,另一个就是为数据传输提速。在hadoop大数据的背景下,这两点尤为重要,那么我现在就先来了解下hadoop中的文件压缩。hadoop里支持很多种压缩格式,我们看一个表格:DEFLATE是同时使用了LZ77算法与哈夫曼编码(Huffman Coding)的一个无损数据压缩算法,源代码可以在zlib库中找到。gzip是以DEF转载 2017-02-17 14:32:23 · 564 阅读 · 0 评论 -
hadoop集群balance工具详解
在线上的Hadoop集群运维过程中,hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布,以避免出现部分datanode磁盘占用率高的问题(这问题也很有可能导致该节点CPU使用率较其他服务器高)。 1) hadoop balance工具的用法:[html] view plain copy转载 2017-02-02 21:10:23 · 1061 阅读 · 0 评论 -
Hadoop之——机架感知配置
1.背景 Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为本地一份,同机架内其它某一节点上一份,不同机架的某一节点上一份。这样如果本地数据损坏,节点可以从同一机架内的相邻节点拿到数据,速度肯定比从跨机架节点上拿数据要快;同时,如果整个机架的网络出现异常,也能保证在其它机架的节点上找到数据。为了降低整体的带宽消耗和读取延时,HDFS会尽量让读取程转载 2017-02-27 14:33:32 · 534 阅读 · 0 评论 -
Hadoop-Shuffle过程
一、回顾Reduce阶段三大步凑 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Reduce阶段总共三个步凑,如下图所示: 其中,Step2.1就是一个Shuffle操作,它针对多个map任务的输出按照不同的分区(Partition)通过网络复制到不同的reduce任务节点上,这个过程就称作为Shuffle。PS:Had转载 2016-09-07 16:54:40 · 6681 阅读 · 0 评论 -
Hadoop Writable机制
为了支持以上这些特性,Hadoop引入org.apache.hadoop.io.Writable接口,作为所有可序列化对象必须实现的接口,其类图如图3-2所示。Writable机制紧凑、快速(但不容易扩展到Java以外的语言,如C、Python等)。和java.io.Serializable不同,Writable接口不是一个说明性接口,它包含两个方法:publi转载 2016-09-07 16:30:31 · 530 阅读 · 0 评论 -
MapReduce实现QQ好友推荐
大家都知道qq用户量上亿,每个用户又有很多的好友,因此,数据量十分的庞大,如何才能实现QQ的好友推荐呢? 下面举一个例子: A有QQ好友B B有QQ好友C 则A,C有可能是好友。 当A登录的时候,则会向A推荐C,当C登录的时候,则会向C推荐A。package com.FriendsRecommended.findFrends;import java.io.IOExcep原创 2016-09-06 17:25:00 · 4815 阅读 · 1 评论 -
告诉你Hadoop是什么
Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算.数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Hadd转载 2016-03-14 14:44:40 · 751 阅读 · 0 评论 -
Hadoop是怎么分块的?
hadoop的分块有两部分 第一部分就是数据的划分(即把File划分成Block),这个是物理上真真实实的进行了划分,数据文件上传到HDFS里的时候,需要划分成一块一块,每块的大小由hadoop-default.xml里配置选项进行划分。 dfs.block.size 67108864 The default block size for new files.这个就是原创 2016-03-14 17:00:27 · 5234 阅读 · 1 评论 -
hadoop关于block总结
hadoop关于block方面的相关总结【转】 1.如何修改hdfs块大小?2.修改之后,之前的block是否发生改变?1.修改hdfs块大小的方法在hdfs-site.xml文件中修改配置块大小的地方,dfs.block.size节点。重启集群后,重新上传文件到hadoop集群上,新增的文件会按照新的块大小存储,旧的不会改变。2.hadoop指定某个文转载 2016-03-14 17:05:55 · 1989 阅读 · 0 评论 -
hadoop的HDFS文件存储
1:什么是HDFS?HDFS适合做:存储大文件。上G、T甚至P。一次写入,多次读取。并且每次作业都要读取大部分的数据。搭建在普通商业机群上就可以了。虽然会经常宕机,但HDFS有良好的容错机制。HDFS不适合做:实时数据获取。如果有这个需求可以用HBase。很多小文件。因为namenode要存储HDFS的metadata(比如目录的树状结构,每个文件的文件名、ACL、长度转载 2016-03-25 09:23:16 · 3986 阅读 · 0 评论 -
hadoop 2.6中管理界面
http://192.168.24.161:8088/cluster - Hadoop Task Tracker 状态 http://192.168.24.161:50070/ - Hadoop DFS 状态原创 2016-07-15 11:13:39 · 17536 阅读 · 1 评论 -
hadoop1.0 和hadoop2.0 任务处理架构比较
刚刚看到一篇文章对 hadoop1 和 hadoop 2 做了一个解释 图片不错 拿来看看 Hadoop 1.0 从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路:首先用户程序 (JobClient) 提交了一个 job,job 的信息会发送到 Job Tracker 中,Job Tracker 是转载 2016-07-15 16:40:09 · 872 阅读 · 0 评论 -
YARN 设计理念与基本架构
YARN 的基本组成结构一. ResourceManagerResourceManager 是一个全局的资源管理器,负责整个集群的资源管理和分配。它主要由两个组件构成:调度器(Scheduler)和应用程序管理器(Applications Master,ASM)。①调度器该调度器是一个 "纯调度器",不再参与任何与具体应用程序逻辑相关的工作,而仅根据各个应用程序的资源需求进行分配,转载 2016-07-27 13:45:03 · 587 阅读 · 0 评论 -
HDFS 的 file size 和 block size
1、 一个HDFS上的文件大小(file size) 小于块大小(block size) ,那么HDFS会实际占用Linux file system的多大空间?答案是实际的文件大小,而非一个块的大小。2、如果hdfs占用Linux file system的磁盘空间按实际文件大小算,那么这个”块大小“有必要存在吗?其实块大小还是必要的,mapreduce分布式处理的时原创 2016-07-21 13:53:51 · 1621 阅读 · 0 评论 -
hadoop温度排序
计算1949-1955年,每年温度最高的时间思路分析①Mapper,按照年份升序排序,同时每年的温度降序②Reduce,按照年份分组, 每年对应一个reduce任务Hadoop中如何自定义排序,自定义分区,自定义分组。 --需求: 1.计算在1949-1955年,每年温度最高的时间 2.计算在1949-1955年,每年温度最高前十天原创 2016-09-12 10:34:23 · 1581 阅读 · 0 评论 -
初学Hadoop之图解MapReduce与WordCount示例分析
阅读目录1、MapReduce整体流程2、WordCount源码3、WordCount逐行解析 Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。 HDFS是Google File System(GFS)的开源实现,MapReduce是Google MapReduce的开源实转载 2016-09-01 10:44:34 · 1712 阅读 · 0 评论 -
Eclipse构建普通的MapReduce项目
1.jdk环境配置 jdk安装后好后配置相关JAVA_HOME环境变量,并将bin目录配置到path 2. 下载hadoop-2.7.1.tar.gz,并且解压到你的路径下D:\XXXX\workspace\hadoop-2.7.1https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2原创 2016-09-01 17:09:11 · 8596 阅读 · 1 评论 -
CDH 问题
文件系统检查点已有 1 天,14 小时,36 分钟。占配置检查点期限 1 小时的 3,860.33%。 临界阈值:400.00%。 自上个文件系统检查点以来已发生 14,632 个事务。 2个可能; 1 , namenode的Cluster ID 与 secondnamenode的Cluster ID 不一致,对比/dfs/nn/current/VERSION 和/dfs/snn/curr原创 2017-05-31 11:29:56 · 3936 阅读 · 0 评论