自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 linux shell进行文件去重

about云推荐的文章,有时候是可以看看,更好的是要慢慢去品味。http://www.aboutyun.com/thread-14552-1-1.html 连接中一段文章,我们来分析下。二、shell进行文件去重aaa.txt111222333444333222555代码:cat -n aaa.txt | sort -k2,2 -k1,1n | uniq -f1

2015-07-31 15:59:49 1633

原创 linux 硬盘读写性能测试

dd是进行数据块拷贝的命令,可以很好的测试硬盘读写性能,网上例子很多,但是有时候我们并没有很好的理解它。我用单机单块硬盘重新测试下。并且分析。写性能测试[root@localhost ~]# dd if=/dev/zero bs=1024 count=1000000 of=./1Gb.file conv=fdatasync记录了1000000+0 的读入记录了100000

2015-07-31 13:48:22 806

原创 hadoop之MapReduce调用R的一次失败的总结~(续五)

前面说过R端抛出异常rhbase:: (IOError) Default TException程序第一次执行MapReduce(6分5秒)的时候是不抛出异常的,本以为第二次执行MapReduce就会抛出,测试情况并不是如此。实测中,如果第2次MapReduce等第一次结束后,立即执行,一段时间后MapReduce才会抛出异常,接着结束。耗时5分5秒,因为异常了所以很快的结束了。

2015-07-28 15:32:39 1210 2

原创 hadoop之MapReduce调用R的一次失败的总结~(续四)

有人说需要用hadoop下的jar替换掉hbase下的jar,因想也许是可能的,以前粗略翻看官方文档中,好像并没有明确说要求替换,所以也未处理这块。再次翻阅了一下文档,果然有相关的说法。

2015-07-27 15:34:52 713

原创 hadoop之MapReduce调用R的一次失败的总结~(续三)

路还在前进。虽然后台错误如故,其实还是有些惊喜的。我HBASE导入数据的时候弄错了一个参数,导致实际导入量为原来的1/1500。我想说的是,我最初升级HBASE版本的时候是以为成功了。因为我在表数据量很小的时候,执行程序(Scan 全表)后台是没有“断开的管道”之类错误的。而恢复之前数据量的表的时候,执行程序(Scan 全表)后错误又回来了。难道这个错误和表的数据量有关?

2015-07-22 16:44:13 748

原创 hadoop之MapReduce调用R的一次失败的总结~(续二)

路还得继续!我重新构想了思路,直接用JAVA的API获取HBASE的历史数据,然后传递给R,这样可以避免了R通过thrift调用!于是我重写了第二个版本的MapReduce,如下:package mytest;import java.io.File;import java.io.IOException;import java.net.URI;import java.text.

2015-07-21 15:58:33 573

原创 hadoop之MapReduce调用R的一次失败的总结~(续一)

问题原因虽没有追溯到,但有可以去避免它的发生!所以我改写了同事的MapReduce,严格控制Map的数量!下面贴上代码。package mytest;import java.io.IOException;import java.net.URI;import java.text.SimpleDateFormat;import java.util.Date;import org.

2015-07-17 14:03:53 498

原创 hadoop之MapReduce调用R的一次失败的总结~

MapRedure调用R遇到了一系列奇怪的问题,包括前面2篇blog也是为了这个问题去测试。时至今日,我可能耗费了一个星期的时间去追踪它的缘由,但是我依然没有发现它。或许我应该暂时的放下。有待以后换个hadoop的环境再去尝试。毕竟我还不能保证这个hadoop的环境是非常优质的!现在我尽量把问题描述清楚,做一次归档,希望以后有机会从源码的角度去追踪它。毕竟目前自己对hadoop的理

2015-07-14 15:17:58 3724 2

原创 Hadoop之RHbase的rhbase<hbScannerGetList>:: (IOError) Default TException.

接上篇http://blog.csdn.net/yibei8811/article/details/46842079MapReduce调用R的时候会抛出一些异常,我们需要重现它。Rhbase获取的rows提供了2个方法。一个是get(),一个是close()。测试下close()后,再次查看端口,thirft的连接并未中断。那么它起到了什么作用?可以见下图。>> librar

2015-07-12 14:01:04 1641 1

原创 hbase和R之thirft探究

MR去调用R的时候导致R卡住,最终超时退出。分布式的测试比较痛苦。free检查内容,top检查cpu,iostat检查硬盘,发现都未达到瓶颈,那么问题出在哪里?细细检查代码,一行一行定位,发现根本问题在于thirft。下面摘录一段hbase配置thirft相关的参数hbase.thrift.minWorkerThreadsThe "core size" of the thread

2015-07-11 15:27:55 912

原创 free和top命令

查看free命令的时候发现swap设置很大,但是并未使用。检索相关资料居然有说法swap最大只能为2G所以利用下篇blog的c++程序,进行测试,发现swap是可以超过2G的。http://blog.csdn.net/yibei8811/article/details/46459539查看free命令显示如下[root@localhost ~]# free

2015-07-10 10:14:03 446

原创 hbase命令和查看当前连接数

名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录put '表名称', '行名称', '列名称:', '值'查看记录get '表名称', '行名称'查看表中的记录总数count '表名称'删除记录delete '表名' ,'行名称' , '列名称'

2015-07-09 13:55:18 13283

原创 hadoop之hadoop-mapreduce-examples-2.7.0.jar

前2篇blog中测试hadoop代码的时候都用到了这个jar,那么很有必要去分析一下源码。分析源码之前很有必要先写一个wordcount,代码如下package mytest;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;

2015-07-06 16:36:30 11749 1

原创 hadoop之伪分布式

接上篇 http://blog.csdn.net/yibei8811/article/details/46709135配置文件etc/hadoop/core-site.xml:添加 fs.defaultFS hdfs://localhost:9000 --配置hdfs分布式文件系统 配置文件etc/hadoop/hdfs-site.xm

2015-07-02 15:52:50 408

原创 hadoop之单机模式

先介绍下hadoop有3种搭建模式单机模式伪分布式模式完全分布式模式   现在做个简单的单机模式搭建,单机模式的搭建,主要用于调试方便吧。首先需要配置JAVA_HOME下载JDK1.7以上。/etc/profile中加上export JAVA_HOME=xxx可以下载hadoop了,执行wget http://mirror.bit.edu.cn/

2015-07-01 13:41:43 380

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除