Hadoop
文章平均质量分 72
iteye_19679
这个作者很懒,什么都没留下…
展开
-
Hadoop中CombineFileInputFormat详解
转http://blog.csdn.net/wawmg/article/details/17095125 在MR实践中,会有很多小文件,单个文件产生一个mapper,资源比较浪费,后续没有reduce逻辑的话,会产生很多小文件,文件数量暴涨,对后续的hive job产生影响。所以需要在mapper中将多个文件合成一个split作为输入,CombineFileInputForm...原创 2015-12-03 21:21:39 · 214 阅读 · 0 评论 -
Hadoop日志到底存在哪里?
初学者运行MapReduce作业时,经常会遇到各种错误,由于缺乏经验,往往不知所云,一般直接将终端打印的错误贴到搜索引擎上查找,以借鉴前人的经验。然而,对于hadoop而言,当遇到错误时,第一时间应是查看日志,日志里通产会有详细的错误原因提示,本文将总结Hadoop MapReduce日志存放位置,帮助初学者定位自己遇到的错误。 Hadoop MapReduce日志分为两部分,一部分是服...原创 2014-10-22 22:07:40 · 150 阅读 · 0 评论 -
Hadoop YARN常见问题以及解决方案
本文汇总了几个hadoop yarn中常见问题以及解决方案,注意,本文介绍解决方案适用于hadoop 2.2.0以及以上版本。 (1) 默认情况下,各个节点的负载不均衡(任务数目不同),有的节点很多任务在跑,有的没有任务,怎样让各个节点任务数目尽可能均衡呢?答: 默认情况下,资源调度器处于批调度模式下,即一个心跳会尽可能多的分配任务,这样,优先发送心跳过来的节点将会把任务领光(...原创 2014-10-22 22:10:22 · 510 阅读 · 0 评论 -
Hadoop 2.0中作业日志收集原理以及配置方法
Hadoop 2.0提供了跟1.0类似的作业日志收集组件,从一定程度上可认为直接重用了1.0的代码模块,考虑到YARN已经变为通用资源管理平台,因此,提供一个通用的日志收集模块势在必行,由于目前通用日志收集模块正在开发中(可参考“YARN-321”),本文仅介绍MRv2(MapReduce On YARN)自带的日志收集模块,包括工作原理以及配置方法。在Hadoop 2.0中,每个作业日志...原创 2014-10-23 13:24:14 · 136 阅读 · 0 评论 -
Hadoop YARN配置参数剖析(2)—权限与日志聚集相关参数
注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患。另外,这些参数均需要在yarn-site.xml中配置。1. 权限相关配置参数这里的权限由三部分组成,分别是:(1)管理员和普通用户如何区分 (2)服务级别的权限,比如哪些用户可以向集群提交ResourceManager提交应用程序,(3)队列级别的权限,比如哪些用户可以向队列A提交作业等。管理员列...原创 2014-10-23 13:24:38 · 242 阅读 · 0 评论 -
手动安装Hadoop Cloudera CDH4.2版本
手动安装Hadoop Cloudera CDH4.2版本博客分类: 系统管理hadoop+hbase+hive 此文由本人调试整理通过,转载请注明出处,谢谢!目录第1章 概要说明41.1 Hadoop是什么?41.2 为什么选择CDH版本?41.3 集群配置环境41.4 网络结构图5第2章 安装hadoop环境62.1 ...原创 2014-11-01 17:29:35 · 183 阅读 · 0 评论 -
各hbase版本对hadoop各版本的支持情况
摘要 各hbase版本对hadoop各版本的支持情况各hbase版本对hadoop各版本的支持情况 目录[-]Replace the Hadoop Bundled With HBase!原文地址:http://hbase.apache.org/book/configuration.html#basic.prerequisitesTable ...原创 2014-11-07 13:24:55 · 421 阅读 · 0 评论 -
hadoop 2.3.0 打不开history server文件的问题
Error message looks like this:Couldnot load history file hdfs://namenodeha:8020/mr-history/tmp/hdfs/job_1392049860497_0005-1392129567754-hdfs-word+count-1392129599308-1-1-SUCCEEDED-default.jhist...原创 2014-12-07 22:45:15 · 943 阅读 · 0 评论 -
yarn 集群部署,遇到的有关问题小结
yarn 集群部署,遇到的有关问题小结优良自学吧提供yarn 集群部署,遇到的有关问题小结,yarn 集群部署,遇到的问题小结 版本信息: hadoop 2.3.0 hive 0.11.0 1. Application Master 无法访问 点击application mater 链接,出现 http 500 错误 <iframe src="h...原创 2014-12-08 13:56:27 · 335 阅读 · 0 评论 -
storm-on-yarn
http://dongxicheng.org/mapreduce-nextgen/storm-on-yarn/原创 2014-12-13 18:22:30 · 107 阅读 · 0 评论 -
storm on yarn 最简单安装笔记!!!私货哦!!!
http://blog.csdn.net/jiushuai/article/details/26693311http://blog.csdn.net/jiushuai/article/details/18729367http://www.cnblogs.com/byrhuangqiang/p/3824540.htmlhttp://zh.hortonworks.com/kb/s...原创 2014-12-14 12:11:38 · 165 阅读 · 0 评论 -
董的博客不错哎
http://dongxicheng.org/category/mapreduce-nextgen/page/2/原创 2014-10-22 22:03:42 · 109 阅读 · 0 评论 -
CDH 的Kerberos认证配置
http://xubo8118.blog.163.com/blog/static/1855523322013918103857226/关于:hadoop的安全机制 hadoop kerberos的安全机制 参考Cloudera官方文档:Configuring Hadoop Security in CDH3 一、部署无kerberos认证的Hadoop环境参考...原创 2014-10-22 16:02:08 · 195 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html 检测50001曝光start 检测50001曝光endhttp://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/ Hadoop 新 MapReduce...原创 2014-10-22 16:00:48 · 68 阅读 · 0 评论 -
hadoop-2.2.0 升级 2.6.0
hadoop-2.2.0 升级 2.6.0hadoop-2.2.0 准备通过一次全面的fsck检查现有系统是否健康,并可记录下fsck的输出信息,用于升级后的对比。./bin/hadoop fsck / -files -blocks -locations > dfs-v-old-fsck-1.log./bin/hadoop dfs -lsr / > dfs-v-ol...原创 2015-12-24 14:31:19 · 128 阅读 · 0 评论 -
TOP20 曝光和点击最高的cookie
1、理解需求 18161这个redmine 说到了“曝光频次和点击频次”,每个项目跑前20个曝光和点击最高的cookie就可以,说了半天和频次没有关系,就是要COUNT最多的cookie,且取 TOP 20.2、如果用普通的方案把数先跑出来,再取top20,将是浪费时间且效率也很低的。 采用FLATTEN(TOP(20, 1, data.(cookie, cnt)) ...原创 2014-02-08 22:50:47 · 117 阅读 · 0 评论 -
编写java的UDF用于pig中
1、java UDF package com.zqk.useragentutils; import org.apache.pig.EvalFunc;import org.apache.pig.data.BinSedesTupleFactory;import org.apache.pig.data.DataBag;import org.apache.pig.data.Def...原创 2014-04-15 18:43:33 · 199 阅读 · 0 评论 -
PIG 命令行传多个参数
PIG 命令行传多个参数PIG 命令行执行脚本,多个参数传递问题终于解决了,实例如下:pig -p startdate=2011-03-21 -p enddate=2011-03-28 script.pig这样就可以实现多个参数传递的例子,但其中,如果参数值中存在空格,则会报错,这个问题还有待研究和解决。...原创 2014-05-28 12:07:18 · 287 阅读 · 0 评论 -
hadoop pig入门总结
http://blackproof.iteye.com/blog/1791980 data = LOAD '/production/log/{10000}/{131001,131130}' USING PigStorage(',');data = FOREACH data GENERATE (int) $0 AS id1, (int) $2 AS id2, (long) $3AS ...原创 2014-05-28 16:54:42 · 133 阅读 · 0 评论 -
mapreduce 去重的问题怎么解决
登录 | 注册 http://bbs.csdn.net/topics/390811736?page=1#post-397617777 返回列表管理菜单结帖发帖回复关注mapreduce 去重的问题怎么解决? [问题点数:40分]快速回复只显...原创 2014-06-25 10:37:04 · 297 阅读 · 0 评论 -
hadoop 定制类
Partitioner, SortComparator and GroupingComparator in Hadoophttp://roserouge.iteye.com/blog/746391原创 2014-06-25 11:09:16 · 92 阅读 · 0 评论 -
Hadoop集群(CDH4)实践之 (1) Hadoop(HDFS)搭建
OS: CentOS 6.4 x86_64Servers:hadoop-master: 172.17.20.230 内存10G- namenodehadoop- secondarynamenode: 172.17.20.234 内存10G- secondarybackupnamenode,jobtrackerhadoop-node-1: 172.17.20.231 内存10G- data...原创 2014-10-12 19:01:35 · 137 阅读 · 0 评论 -
hadoop2.0 yarn
http://www.tuicool.com/articles/FVviYj原创 2014-10-12 21:14:46 · 94 阅读 · 0 评论 -
曝光--Hadoop集群配置
http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html 检测50001曝光start 检测50001曝光end原创 2014-10-13 12:22:10 · 63 阅读 · 0 评论 -
hbase on yarn 安装笔记,私货,浅显易懂
http://blog.csdn.net/jiushuai/article/details/26694475 java高级交流群:37341439 ,文明看不明白的地方可以进群询问啊!欢迎学习hbase的同志进群一同学习,一同进步。 hbase不需要编译,只需要选择需要的hadoop版本对应的hbase就可以。比如hbase-0.98.2-hadoop2-bin.ta...原创 2014-12-14 12:13:20 · 669 阅读 · 0 评论