自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 jobhistory无法显示

最近楼主在运维hadoop集群时,发现无法打开jobhistory的页面,这导致查找作业运行失败的原因时会相当的蛋疼。楼主对照着各路大神的帖子,反复对比关于jobhistory的各个配置参数,觉着都没有什么问题。逐步定位问题:一、查看jobhistory的进程是否是以hadoop的超级用户启动:进程活着,是以hadoop的超级用户启动的。二、查看jobhistory的日志:在.

2015-06-15 11:56:46 5819

原创 集群添加节点失败

最近望集群添加新机器,但是比较鲁莽,新机器没有进行参数调优,结果使得新添加的节点都挂掉了,辛亏及时回滚,不然影响了线上的一些数据处理任务。现在总结下当时发生的问题,以及最终的解决办法。问题:新加入的节点的nodemanager报出如下错误:“java.lang.OutOfMemoryError : unable to create new native Thread”解决办法:

2015-06-15 11:41:50 3464

转载 Hadoop MapReduce处理海量小文件:基于CombineFileInputFormat

原文链接:http://shiyanjun.cn/archives/299.html在使用Hadoop处理海量小文件的应用场景中,如果你选择使用CombineFileInputFormat,而且你是第一次使用,可能你会感到有点迷惑。虽然,从这个处理方案的思想上很容易理解,但是可能会遇到这样那样的问题。使用CombineFileInputFormat作为Map任务的输入规格描述,首先需要

2015-05-25 23:45:38 534

原创 运行大作业(文件数目多)时需要注意的参数

运行大作业(文件数目多)时需要注意的参数:Hadoop2 采用Yarn管理作业,与Hadoop1不同的是,Hadoop2会控制每个任务的内存数量。因此,当作业执行失败时,可根据报错信息调整以下参数参数一: AM内存MR_ApplicationMaster占用的内存量。如果一个作业的map过多,可能导致am内存溢出,进而作业失败。conf.set("yarn.app.ma

2015-03-12 18:16:35 2941

转载 hive列转行 (collect_set())

转载链接:http://my.oschina.net/dataRunner/blog/295960一、问题hive如何将a       b       1a       b       2a       b       3c       d       4c       d       5c       d       6变为:

2015-03-12 18:14:26 554

原创 读取RcFile文件

本文介绍一个读取rcflie文件的示例。

2015-02-28 16:05:09 2595

原创 几个常用的shell命令

sort -k1 -nawk '{if ($1

2014-12-03 11:50:45 334

转载 (转)Hive调优实战

转载链接:http://sznmail.iteye.com/blog/1499789Hive优化总结---by 食人花   优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征

2014-11-28 16:24:18 398

转载 (转)运维经验分享:Hadoop管理员的十个最佳实践

转载链接:http://os.51cto.com/art/201209/355125.htm    大多数管理员都是从Apache Hadoop开始学习。笔者最开始也使用Apache版本Hadoop进行开发和部署工作,但接触到Cloudera CDH后,我发现它可以使管理员的工作更简单,不仅可以获得最新的特性和Bug修复,有时也会带来令人惊喜的性能改善。接触Hadoop有两年的时间

2014-11-27 19:07:23 656

转载 (转)MapReduce 重要组件——Recordreader组件

(1)以怎样的方式从分片中读取一条记录,每读取一条记录都会调用RecordReader类;(2)系统默认的RecordReader是LineRecordReader,如TextInputFormat;而SequenceFileInputFormat的RecordReader是SequenceFileRecordReader;(3)LineRecordReader是用每行的偏移量作为

2014-11-27 16:10:57 375

转载 (转)Hadoop YARN配置参数剖析(1)—RM与NM相关参数

注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患。另外,这些参数均需要在yarn-site.xml中配置。1.    ResourceManager相关配置参数(1) yarn.resourcemanager.address参数解释:ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应用程序等。默

2014-11-25 17:11:11 408

原创 Hadoop运维:hive作业跑挂的原因总结

最近集群数据源迁移,重新布置flume,由于没有优化好,产生了dali

2014-11-18 11:27:30 3036

原创 Hadoop运维:hive运行调优--rcFile

最近发现hive库中的数据都是没有压缩的,每次运行超级慢,现在调优成rcFile格式。

2014-11-17 18:34:02 506

原创 Hadoop运维:作业的map过多被杀死

这几天因为数据源更改的原因,每天一个任务运行的作业数

2014-11-11 18:51:18 1046

原创 Hadoop运维:摘除节点上的硬盘

最近要摘除节点上的一些硬盘,主要需要注意一下几点:

2014-10-29 12:07:50 932

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除