Hadoop
文章平均质量分 63
吐槽达达仔
这个作者很懒,什么都没留下…
展开
-
Name node is in safe mode
在执行copyFromLocal的时候,报错了。 Name node is in safe mode。 safemode模式 NameNode在启动的时候首先进入安全模式,如果datanode丢失的block达到一定的比例(1-dfs.safemode.threshold.pct),则系统会一直处于安全模式状态即只读状态。 dfs.safemode.threshold.pct(...原创 2012-11-15 23:36:04 · 97 阅读 · 0 评论 -
配置sqoop和mssql
将mssql 的jar包:sqljdbc4.jar 拷贝到SQOOP_HOME/lib下 配置sqoop cd /home/support/sqoop-1.4.5/conf cp sqoop-env-template.sh sqoop-env.sh 修改sqoop-env.sh文件 增加: export HADOOP_COMMAND_HOME=/usr/l...原创 2014-08-28 10:22:47 · 239 阅读 · 0 评论 -
[转]Sqoop取Oracle数据出现SQLRecoverableException
Refer to:http://www.cnblogs.com/cenyuhai/archive/2013/09/06/3306073.html Oracle: Connection Reset Errors错误代码11/05/26 16:23:47 INFO mapred.JobClient: Task Id : attempt_201105261333_0002_m_000002_0, ...原创 2013-10-21 09:54:20 · 451 阅读 · 0 评论 -
配置Capacity Scheduler
多用户下的Hadoop集群,少不了资源配置的管理。 Capacity Scheduler作为Yahoo开源的资源管理器,有着相当不错的适用性。 在HADOOP_HOME下的lib文件夹下面,找找有没有capacity schedule的jar包。 老版本的hadoop会把capacity scheduler的jar包 放在contrib/capacity-scheduler/ha...原创 2014-08-14 23:55:18 · 388 阅读 · 0 评论 -
Hadoop LineRecordReader实现分析
直接上代码: package org.apache.hadoop.mapreduce.lib.input; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apa...原创 2014-02-18 14:43:44 · 387 阅读 · 1 评论 -
sqoop导入Hive配置
数据库中经常有换行符之类的数据,导入到Hive里面会发生重大的问题,所以,sqoop是有一个配置项来解决这个问题的。 sqoop import --connect jdbc:oracle:thin:@url --username user --password pwd \ --table PA18ODSDATA.PARTNER_INFO \ --columns ID_PARTNER...原创 2013-07-31 18:07:52 · 1021 阅读 · 0 评论 -
开发自定义同步到MongoDB的OutputFormat
需求需要将Hadoop的数据插入到MongoDB。 数据类型是将字符串转换成一个类似Map的对象,插入到数据库中。以替换原有的单线程接口。 import java.io.IOException; import java.util.*; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop....原创 2013-12-24 15:44:29 · 153 阅读 · 0 评论 -
Hadoop: LongWritable cannot be cast to org.apache.hadoop.io.IntWritable
写MR Job的时候遇到一个坑爹的异常: LongWritable cannot be cast to org.apache.hadoop.io.IntWritable 当写Map的时候,key的默认输入就是LongWritable。 因为LongWritable指代Block中的数据偏移量。 所以把它强行转换成Text当然就Error了。。 public static ...原创 2013-12-22 12:04:21 · 4058 阅读 · 0 评论 -
HBase存储概念的一些理解
首先,HBase是分布式NoSQL数据库。 构建在Hadoop平台上的一个应用。 与Hadoop类似,属于Master-slave架构。 其中,存在一个运行的HMaster,和若干个HMaster备用,通过Zookeeper协调进行HA。 HMaster主要是处理Table的增删改查,HRegion的负载均衡,Region Split 和 新Region的重新分配。 存在一个或多...原创 2013-02-16 17:38:01 · 103 阅读 · 0 评论 -
Oozie 自动retry和跳节点运行
对于一些Job,可能是由于临时的环境依赖关系,导致的调度失败。 比如说调用远程的WebService接口,Restful接口等。 或者是同步远程数据发生网络异常,这种情况,应该予以自动重跑。 在Oozie下面,是支持这样的操作的: <workflow-app xmlns="uri:oozie:workflow:0.3" name="wf-name"> <ac...2013-12-09 14:35:36 · 790 阅读 · 0 评论 -
Sqoop环境变量异常
在通过Oozie调用sqoop action从DB导入数据到hive表的时候,发现了异常。 28167 [Thread-30] INFO org.apache.sqoop.hive.HiveImport - FAILED: SemanticException [Error 10028]: Line 2:17 Path is not legal &apos;&apos;h...原创 2013-07-12 09:27:47 · 329 阅读 · 0 评论 -
StringTokenizer初步了解
在Hadoop里面经常看到有StringTokenizer,用来分割字符串。 那么在这里就简单地了解一下这个类到底有什么用。 1. StringTokenizer(String str):构造一个用来解析str的StringTokenizer对象。 java默认的分隔符是“空格”、“制表符(‘\t’)”、“换行符(‘\n’)”、“回车符(‘\r’)”。2. StringToken...原创 2012-12-17 20:18:28 · 142 阅读 · 0 评论 -
Hadoop DataNode启动失败
DataNode启动失败: 2012-12-14 00:48:19,242 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Invalid directory in dfs.data.dir: Incorrect permission for /usr/hadoop/hadoop-1.0.4/data, expected: rwx...原创 2012-12-14 00:57:52 · 286 阅读 · 0 评论 -
运行MapReduce的时候OOM
出错如下: java.lang.OutOfMemoryError: Java heap space at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.<init>(MapTask.java:498) at org.apache.hadoop.mapred.MapTask.run(Map...原创 2012-12-13 23:51:48 · 384 阅读 · 0 评论 -
MapReduce函数的JavaScript模拟实现
转载自 D瓜哥对于像我一样的菜鸟理解MapReduce模型非常有用。上代码~~! <html> <head> <title>MapReduce JS test</title> <meta http-equiv="Content-Language" content="zh-cn"> <meta http原创 2012-11-28 18:23:49 · 165 阅读 · 0 评论 -
Sqoop1.4.2数据同步工具基础使用
我们使用Sqoop主要是用作数据库和HDFS之间的数据同步操作。 那么在HDFS中主要使用的管理工具是HIVE。 目前,使用Sqoop使用 hive-import功能是有异常的。 在使用hive-import功能的时候,会自动生成CREATE TABLE 脚本。 而无法根据Hive的Metadata来进行操作。 而在使用-query功能,也就是通过查询脚本进行数据导入时,...原创 2013-05-14 10:47:59 · 191 阅读 · 0 评论 -
配置Eclipse连接Hadoop
我的Hadoop配置在开源的Virtual-box上面,系统是Ubuntu 12.04 配置Hadoop开发环境的文章就很多了,这里不累述。 这里是我Hadoop单机模式下的配置。 注意一点,地址要用本机的IP地址,不要用localhost,否则Eclipse会连接失败。 因为这一点,我反复搞了2个星期。 贴上代码: core-site.xml <?xml vers...原创 2012-11-20 08:23:28 · 99 阅读 · 0 评论 -
为hadoop0.20.2 配置Ganglia3.1.7
hadoop0.20.2,打了补丁以后,可以支持Ganglia3.X的监控。 如果不打补丁,就无法支持Ganglia3.X了。 安装说明等,完整下载地址:http://pan.baidu.com/s/1hqehLp6 1.用rpm检测依赖包情况 rpm -q gcc glibc glibc-common rrdtool rrdtool-devel apr apr-deve...原创 2014-09-03 17:17:57 · 152 阅读 · 0 评论