![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop入门
文章平均质量分 57
liujianfei526
这个作者很懒,什么都没留下…
展开
-
Hadoop学习全程记录——hadoop读取hdfs文件系统里的内容
import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataIn原创 2015-04-05 20:16:51 · 1199 阅读 · 0 评论 -
Hadoop学习全程记录——eclipse hadoop开发环境配置(2)(修改)
ubuntu14.04下安装hadoop完成后,接下来就是eclipse hadoop开发环境配置了。具体的操作如下:一、在eclipse下安装开发hadoop程序的插件安装这个插件很简单,haoop-0.20.2自带一个eclipse的插件,在hadoop目录下的 contrib\eclipse-plugin\hadoop-0.20.2-eclipse-plugin.jar,把这个文件c转载 2015-04-04 16:21:42 · 529 阅读 · 0 评论 -
Hadoop学习全程记录——在Eclipse中运行第一个MapReduce程序(3)
这是Hadoop学习全程记录第2篇,在这篇里我将介绍一下如何在Eclipse下写第一个MapReduce程序。 新说明一下我的开发环境: 操作系统:ubuntu 14.04hadoop版本:hadoop1.2.1.tar.gz Eclipse版本:eclipse.tar.gz 为了学习方便这个例子在“伪分布式模式”Hadoop安装方式下开发。 在Ecli转载 2015-04-04 16:33:27 · 764 阅读 · 0 评论 -
Hadoop当中查看目录和文件是否存在
fs -test -e可以用来检查文件或目录是否存在fs -test -d用来检查指定目录是否是一个目录,但首先要查检该位置是否存在。因此在检查一个目录是否存在时,只能用-test -ehadoop判断文件是否存在 在shell中判断一个HDFS目录/文件是否存在 直接看shell代码: hadoop fs -test -e /h转载 2016-06-20 16:41:46 · 20846 阅读 · 0 评论 -
(转)hadoop多文件格式输入
hadoop多文件格式输入,一般可以使用MultipleInputs类指定不同的输入文件路径以及输入文件格式 原文:http://blog.csdn.net/fansy1990/article/details/26267637 版本:CDH5.0.0 (hdfs:2.3,mapreduce:2.3,yarn:2.3)hadoop多文件格式输入,一般可转载 2016-05-22 17:26:44 · 375 阅读 · 0 评论 -
yarn内存配置指南
yarn中需要很多内存配置,本文只给一些推荐和建议,实际还根据具体业务逻辑来定首先,需要明确,yarn中,整个集群的资源需要内存、硬盘、CPU(CPU核数)三者来决定,必须要实现三者的均衡,在实际生产环境中,硬盘都是足够大的,所以很少考虑硬盘,这里暂时也把硬盘作为一个要素作为参考项。在计算节点可用内存的时候,需要考虑操作系统系统的内存需求、NM的内存需求以及该节点其他系统的内存需求转载 2016-05-20 22:45:40 · 1267 阅读 · 0 评论 -
MapReduce YARN Memory Parameters
EnvironmentProductVersionPHD2.x - 3.xOSRHEL 6.xOverviewThis is an informational article that attempts to contain the complexity of the Hadoop parameters used to转载 2016-05-20 22:37:41 · 278 阅读 · 0 评论 -
Yarn简单介绍及内存配置
在这篇博客中,主要介绍了Yarn对MRv1的改进,以及Yarn简单的内存配置和Yarn的资源抽象container。我么知道MRv1存在的主要问题是:在运行时,JobTracker既负责资源管理又负责任务调度,这导致了它的扩展性、资源利用率低等问题。之所以存在这样的问题,是与其最初的设计有关,如下图:从上图可以看到,MRv1是围绕着MapReduce进行,并没有过多地考虑以后出现的转载 2016-05-20 22:22:15 · 789 阅读 · 0 评论 -
mapreduce yarn内存参数
参考自: 1)http://blog.chinaunix.net/uid-28311809-id-4383551.html2)https://support.pivotal.io/hc/en-us/articles/201462036-Mapreduce-YARN-Memory-Parameters 1、yarn-site.xml 设置1.1 RM设置RM的内存资源配置转载 2016-05-20 20:26:18 · 398 阅读 · 0 评论 -
使用mapreduce计算环比的实例
最近做了一个小的mapreduce程序,主要目的是计算环比值最高的前5名,本来打算使用spark计算,可是本人目前spark还只是简单看了下,因此就先改用mapreduce计算了,今天和大家分享下这个例子,也算是对自己写的程序的总结了。 首先解释下环比,例如我们要算本周的环比,那么计算方式就是本周的数据和上周数字的差值除以上周数值就是环比了,如果是月的环比就是本月和上月数据的差值除以上月转载 2016-05-20 12:43:48 · 728 阅读 · 0 评论 -
Hadoop学习笔记:MapReduce框架详解
Hadoop学习笔记:MapReduce框架详解2015/02/05 · IT技术 · 1 评论 · Hadoop, MapReduce分享到:52原文出处: 夏天的森林 开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapre转载 2016-05-20 12:41:41 · 578 阅读 · 0 评论 -
hadoop文件合并
众所周知,Hadoop对处理单个大文件比处理多个小文件更有效率,另外单个文件也非常占用HDFS的存储空间。所以往往要将其合并起来。1,getmergehadoop有一个命令行工具getmerge,用于将一组HDFS上的文件复制到本地计算机以前进行合并参考:http://hadoop.apache.org/common/docs/r0.19.2/cn/hdfs_shell.h转载 2016-05-30 13:05:56 · 811 阅读 · 0 评论 -
JAVA命令详解
JAVA命令详解结构说明Java 和 OldJavaJIT选项另请参阅结构java [ options ] class [ argument ... ] java [ options ] -jar file.jar [ argument ... ] javaw [ options ] class [ argument ... ] javaw [ options ] -jar f转载 2016-05-29 09:48:43 · 1352 阅读 · 0 评论 -
MapReduce计数器
(1)计数器主要用来收集系统信息,以及相关作业的运行时候的统计数据,用于知道作业成功、失败等情况;(2)相比而言,计数器方式比日志更易于分析。内置计数器:(1)Hadoop内置的计数器,主要用来记录作业的执行情况(2)内置计数器包括MapReduce框架计数器(Map-Reduce Framework) ——文件系统计数器(转载 2016-05-28 18:19:29 · 330 阅读 · 0 评论 -
深度分析如何在Hadoop中控制Map的数量
深度分析如何在Hadoop中控制Map的数量guibin.beijing@gmail.com很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造转载 2016-05-26 13:07:52 · 238 阅读 · 0 评论 -
Hadoop YARN常见问题以及解决方案
本文汇总了几个hadoop yarn中常见问题以及解决方案,注意,本文介绍解决方案适用于hadoop 2.2.0以及以上版本。(1) 默认情况下,各个节点的负载不均衡(任务数目不同),有的节点很多任务在跑,有的没有任务,怎样让各个节点任务数目尽可能均衡呢?答: 默认情况下,资源调度器处于批调度模式下,即一个心跳会尽可能多的分配任务,这样,优先发送心跳过来的节点将会把任务领光(前提:任务转载 2016-05-26 10:29:26 · 442 阅读 · 0 评论 -
hadoop中的一次集群任务执行超时问题查找过程
本次进行一个项目的重构,在某些活动数据量比较大的情况下,会偶尔出现1200s超时的情况,如下: AttemptID:attempt_1410771599055_11709_m_000033_0 Timed out after 1200 secs 而hadoop会不断启动备份任务进行重试,重试也许成功,但失败的概率还是比较大: 经过分析,hadoop的转载 2016-05-26 10:21:01 · 2085 阅读 · 0 评论 -
理解 Java 垃圾回收机制
理解java垃圾回收机制有什么好处呢?作为一个软件工程师,满足自己的好奇心将是一个很好的理由,不过更重要的是,理解GC工作机制可以帮助你写出更好的Java应用程序。这是我个人的主观观点,但我相信一个人精通了GC,往往会是一个更好的Java程序员。如果你对GC感兴趣,那就意味着你有一定大规模应用开发的经验。如果你已经仔细过考虑选择合适的GC算法,这意味着你完全理解你开发的应用程序的功能。当然转载 2016-05-24 23:19:17 · 293 阅读 · 0 评论 -
Hadoop学习全程记录——ubuntu14.04下配置Hadoop(1)(修改)
ubuntu自带java环境,不需要安装。1.SSH和无密码登录安装SSH客户端sudo apt-get install openssh-clients生成无密码的“公私钥”对:su hadoopssh -keygen -t dsa -P '' -f ~/.ssh/id_dsacat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized-ke转载 2015-04-03 16:03:30 · 539 阅读 · 0 评论