hadoop
文章平均质量分 57
baiyunl
这个作者很懒,什么都没留下…
展开
-
(转载)Hadoop中常出现的错误以及解决方法
1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer: 程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。 修改办法: 修改2个文件。 /etc/security/limits.conf vi...2010-03-26 18:57:00 · 95 阅读 · 0 评论 -
直接使用HADOOP-RPC的编码实例
1、创建接口,该接口类在服务端和客户端都必须有。public interface Serverif extends VersionedProtocol2、在服务端实现接口类public class ServerImpl implements Serverif3、服务端,使用实现的类启动服务,需要定义监听的IP地址和端口Server server = RPC.getServer(...原创 2010-09-06 17:13:57 · 77 阅读 · 0 评论 -
ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: java.lang.NumberFormatExc
namenode莫名奇妙的启动不了,看log:2011-04-19 12:06:59,967 INFO org.apache.hadoop.hdfs.server.common.Storage: Number of files = 114712011-04-19 12:07:00,592 INFO org.apache.hadoop.hdfs.server.common.Storage: ...原创 2011-04-19 19:20:41 · 647 阅读 · 0 评论 -
百度Hadoop分布式系统揭秘:4000节点集群
在 NoSQL 方面,之前了解到百度对 Hadoop 和 hypertable 都有研究,而且 hypertable 方面更是作为其主要赞助商之一,但之前和百度的一些朋友了解到百度内部对 hypertable 倒是使用不多,相反在 Hadoop 方面倒是有比较大的应用实例。下面一篇文章描述了百度内部4000个结点的 Hadoop 集群的一些技术细节。百度的高性能计算系统(主要是后端...原创 2011-04-24 14:54:26 · 185 阅读 · 0 评论 -
Hadoop 数据类型与文件结构剖析 Sequence, Map, Set, Array, BloomMap Files
今天要推荐的一篇文章发表在知名云存储提供商 Cloudera 的博客,本文细致且图文并茂地讲解了 Hadoop 的几种典型文件结构及他们之前的关系。NoSQLFan 将主要内容翻译整理如下(如有错漏,欢迎指正):1.Hadoop’s SequenceFileSequenceFile 是 Hadoop 的一个重要数据文件类型,它提供key-value的存储,但与传统...原创 2011-04-24 15:06:26 · 95 阅读 · 0 评论 -
Hadoop中常出现的错误以及解决方法
1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer: 程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。 修改办法: 修改2个文件。 /etc/security/limits.conf vi /etc/securi...原创 2011-01-10 16:25:15 · 114 阅读 · 0 评论 -
sqoop could not find any valid local directory 异常解决
在没有更改任何配置的情况下sqoop突然报警:org.apache.hadoop.util.diskchecker$diskerrorexception: could not find any valid local directory;原来是硬盘空间满了,占用到了100%;删除没用的数据后,sqoop能正常运行。 过了一天后,又报sqoop error reading task ...原创 2011-09-07 15:10:28 · 352 阅读 · 0 评论 -
海量数据处理相关资料
逖靖寒的世界:http://gpcuster.cnblogs.com/原创 2011-03-01 18:16:48 · 57 阅读 · 0 评论 -
Sqoop
Sqoop是什么?它是一个工具,一个在Hadoop和关系型数据库之间进行数据导入导出,它将这个过程中的大部分步骤自动执行,简化了使用者的。同时,它将整个数据导入导出过程用MapReduce进行实现,充分利用了Hadoop分布式的优点.实例场景广告PV记录,包含广告ID,PV时间,访问IP三项信息数据规模:1700万原始位置:本机MySQL数据库Sqoop从DB到HDFS格式...原创 2011-03-16 15:16:10 · 67 阅读 · 0 评论 -
Hadoop集群优化手记
<property> <name>mapred.min.split.size</name> <value>268435456</value> <description>决定了每个 Input Split的最小值,也间接决定了一个Job的map 数目。 ...原创 2011-03-16 15:21:14 · 74 阅读 · 0 评论 -
Hadoop常见问题及解决办法(2)
1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。 /etc/security/limits.confvi /etc/secu...原创 2011-03-16 15:23:37 · 303 阅读 · 0 评论 -
sqoop应用错误记录
Connection refused 解决: 1 mysql用户名和密码确认正确2 mysql上有集群所有节点的访问授权原创 2011-04-01 16:26:03 · 74 阅读 · 0 评论 -
zookeeper安装
前提是已经安装好HADOOP(020.2):tar -zxvf zookeeper-3.3.2.tar.gzcd zookeeper-3.3.2.tar.gzmv * /hadoop/zookeepercd /hadoop/zookeeperzookeeper要部署到各台机器的相同目录下,且具有相同的配置文件。Zookeeper 的配置文件主要有以下两个:1、/hadoop/zoo...原创 2011-04-01 16:27:17 · 84 阅读 · 0 评论 -
mapreduce技术的开源c语言实现
一、Stanford大学的Phoenix系统(单机多核的应用)1、Phoenix是在共享内存的体系结构上的MapReduce实现。它的目标是在多核平台上,使程序执行得更高效,而且使程序员不必关心并发的管理。事实上并发管理,尽管是经验丰富的程序员,也难免在这上面出错。2、Phoenix由一组对程序应用开发者开放的简单API和一个高效的运行时组成。运行时系统处理程序的并发、资源管理和错误修复, ...原创 2010-09-03 13:37:08 · 360 阅读 · 0 评论 -
hadoop c++ 扩展
百度hadoop c++扩展介绍:http://zhaolinjnu.blog.sohu.com/153902759.html资料:https://issues.apache.org/jira/browse/MAPREDUCE-1270原创 2010-09-03 13:22:14 · 111 阅读 · 0 评论 -
hadoop安全
up and running with secure hadoop: http://hbaseblog.com/2010/07/21/up-and-running-with-secure-hadoop/http://www.openfoundry.org/tw/worldwide-news/2397原创 2010-09-03 10:23:44 · 89 阅读 · 0 评论 -
hadoop/mapred优化方法.V002
转自 http://thethethethethethe.spaces.live.com/blog/cns!A001241972EA08EA!232.entry自V001以来, 收到不少朋友的阅读, 与大家交流.现在有V002的初稿, 只是在V001的基础上改版, 并增加少量内容. 个人总结了10个可以考虑优化的点, 供大家参考, 也想抛砖引玉, 要是最后能形成一个 ...2010-03-26 19:58:09 · 63 阅读 · 0 评论 -
HDFS+MapReduce+Hive+HBase十分钟快速入门(zhuan)
HDFS+MapReduce+Hive+HBase十分钟快速入门易剑 2009-8-191. 前言本文的目的是让一个从未接触Hadoop的人,在很短的时间内快速上手,掌握编译、安装和简单的使用。2. Hadoop家族截止2009-8-19日,整个Hadoop家族由以下几个子项目组成:成员名 用途 Hadoop Common Hadoop体系最底层的一个模块,...2010-03-27 16:43:57 · 171 阅读 · 0 评论 -
hadoop 10 tip(转载)
10 MapReduce TipsThis piece is based on the talk “Practical MapReduce” that I gave at Hadoop User Group UK on April 14.1. Use an appropriate MapReduce languageThere are many languages and fr...原创 2010-01-08 13:56:07 · 105 阅读 · 0 评论 -
hadoop使用中的几个小细节(一)(转自淘宝数据平台团队)
最近在hadoop实际使用中有以下几个小细节分享:1 中文问题 从url中解析出中文,但hadoop中打印出来仍是乱码?我们曾经以为hadoop是不支持中文的,后来经过查看源代码,发现hadoop仅仅是不支持以gbk格式输出中文而己。 这是TextOutputFormat.class中的代码,hadoop默认的输出都是继承自FileOutputFormat来的,File...原创 2010-07-11 15:42:13 · 67 阅读 · 0 评论 -
hadoop使用中的几个小细节(二)(转自淘宝数据平台团队)
1 某次正常运行mapreduce实例时,抛出错误java.io.IOException: All datanodes xxx.xxx.xxx.xxx:xxx are bad. Aborting…at org.apache.hadoop.dfs.DFSClient$DFSOutputStream.processDatanodeError(DFSClient.java:2158)...原创 2010-07-11 15:56:14 · 79 阅读 · 0 评论 -
Hadoop 上大矩阵乘法
参考一:[url]http://forum.hadoop.tw/viewtopic.php?f=7&t=12&view=next [/url]目前自己架設了 Hadoop + HBase 叢集但是在 eclipse 上卻始終不能順利 run 程式 嘗試了好久...終於找到方法了~~~主因是我使用的電腦並不是叢集的一部分...所以程式執行時,zookeeper 預設是連到 l...原创 2010-07-11 16:10:28 · 234 阅读 · 0 评论 -
Interpreting the Data:Parallel Analysis with Sawzall(1)
作者Rob Pike, Sean Dorward, Robert Griesemer, Sean QuinlanGoogle, Inc.(Draft submitted to Scientific Programming Journal) 概要超大量的数据往往会采用一种平面的正则结构,存放于跨越多个计算机的多个磁盘上。这方面的例子包括了电话通话记录,网络日志...原创 2010-07-12 15:51:45 · 140 阅读 · 0 评论 -
Interpreting the Data:Parallel Analysis with Sawzall(2)
7.Sawzall语言概览作为一种查询语言,Sawzall是一种类型安全的脚本语言。由于Sawzall自身处理了很多问题,所以完成相同功能的代码就简化了非常多-与MapReduce的C++代码相比简化了10倍不止。Sawzall语法和表达式很大一部分都是从C照搬过来的;包括for循环,while循环,if语句等等都和C里边的很类似。定义部分借鉴了传统Pascal的模式:i: ...原创 2010-07-12 15:55:51 · 119 阅读 · 0 评论 -
Interpreting the Data:Parallel Analysis with Sawzall(3)
12 性能虽然Sawzall是解释执行的,但是这不是影响性能的主要因素。大部分Sawzall程序都只会带来很少一点的处理开销和I/O开销,而大部分的CPU时间都用于各种run-time的操作,比如分析protocol buffer等等。不过,为了比较单CPU的Sawzall和其他解释语言的解释执行性能,我们写了一些小的测试程序。第一个是计算Mandelbrot的值,来测试基本的算术和循...原创 2010-07-12 15:56:55 · 167 阅读 · 0 评论 -
hadoop 优化
从三个方面着手优化 :1. hadoop配置2. 设计mapred/job3. 代码级别.4. 改造hadoop一. conf/hadoop-site.xml配置.经验要求高, 特别需要结合实际情况.典型参数如复制因子,mapred.child.java.opts,mapred.tasktracker.map.tasks.maximum,mapred...原创 2010-05-14 18:49:29 · 122 阅读 · 0 评论 -
redhat 5.4部署单机伪分布Hadoop集群
一、所需相关软件版本RedHat enterprise 5.4,kernel 2.6.18; jdk 1.6update16.rpm.bin for linux;hadoop2.0.2,虚拟机VMware workstation 7.0.1 build-227600二、设置RedHatRpm源:http://rpm.pbone.net/ (注:算是比较全的了,rpm包很集中,下载方便)1. 解决中...原创 2010-08-23 10:53:35 · 269 阅读 · 0 评论 -
RedHat上安装hadoop+hbase问题记录
安装在vshpere 虚拟机上,虚拟两台RedHat系统。1 在/etc/hosts 中,将172.0.0.1 与主机名映射后,slave找不到master。 要将主机名删掉。。2 hbase上的hbase-site.xml配置文件里的hbase.rootdir的值要与hadoop-site.xml里的端口对应。。。。大意了 罪过啊罪过。。。。...原创 2010-08-27 14:16:32 · 128 阅读 · 0 评论 -
hadoop状态分析系统chukwa(转)
Apache 的开源项目 hadoop, 作为一个分布式存储和计算系统,已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时,集群自身的相关信息如何收集和分析呢?针对这个问题, Apache 同样提出了相应的解决方案,那就是 chukwa。 概述 chukwa 的官方网站是这样描述自己的: c...原创 2012-03-21 15:23:14 · 232 阅读 · 0 评论