2015年07月_yibei8811

原创 linux shell进行文件去重

about云推荐的文章，有时候是可以看看，更好的是要慢慢去品味。http://www.aboutyun.com/thread-14552-1-1.html 连接中一段文章，我们来分析下。二、shell进行文件去重aaa.txt111222333444333222555代码：cat -n aaa.txt | sort -k2,2 -k1,1n | uniq -f1

2015-07-31 15:59:49 1633

原创 linux 硬盘读写性能测试

dd是进行数据块拷贝的命令，可以很好的测试硬盘读写性能，网上例子很多，但是有时候我们并没有很好的理解它。我用单机单块硬盘重新测试下。并且分析。写性能测试[root@localhost ~]# dd if=/dev/zero bs=1024 count=1000000 of=./1Gb.file conv=fdatasync记录了1000000+0 的读入记录了100000

2015-07-31 13:48:22 806

原创 hadoop之MapReduce调用R的一次失败的总结~(续五)

前面说过R端抛出异常rhbase:: (IOError) Default TException程序第一次执行MapReduce（6分5秒）的时候是不抛出异常的，本以为第二次执行MapReduce就会抛出，测试情况并不是如此。实测中，如果第2次MapReduce等第一次结束后，立即执行，一段时间后MapReduce才会抛出异常，接着结束。耗时5分5秒，因为异常了所以很快的结束了。

2015-07-28 15:32:39 1210 2

原创 hadoop之MapReduce调用R的一次失败的总结~(续四)

有人说需要用hadoop下的jar替换掉hbase下的jar，因想也许是可能的，以前粗略翻看官方文档中，好像并没有明确说要求替换，所以也未处理这块。再次翻阅了一下文档，果然有相关的说法。

2015-07-27 15:34:52 713

原创 hadoop之MapReduce调用R的一次失败的总结~(续三)

路还在前进。虽然后台错误如故，其实还是有些惊喜的。我HBASE导入数据的时候弄错了一个参数，导致实际导入量为原来的1/1500。我想说的是，我最初升级HBASE版本的时候是以为成功了。因为我在表数据量很小的时候，执行程序（Scan 全表）后台是没有“断开的管道”之类错误的。而恢复之前数据量的表的时候，执行程序（Scan 全表）后错误又回来了。难道这个错误和表的数据量有关？

2015-07-22 16:44:13 748

原创 hadoop之MapReduce调用R的一次失败的总结~(续二)

路还得继续！我重新构想了思路，直接用JAVA的API获取HBASE的历史数据，然后传递给R，这样可以避免了R通过thrift调用！于是我重写了第二个版本的MapReduce，如下：package mytest;import java.io.File;import java.io.IOException;import java.net.URI;import java.text.

2015-07-21 15:58:33 573

原创 hadoop之MapReduce调用R的一次失败的总结~(续一)

问题原因虽没有追溯到，但有可以去避免它的发生！所以我改写了同事的MapReduce，严格控制Map的数量！下面贴上代码。package mytest;import java.io.IOException;import java.net.URI;import java.text.SimpleDateFormat;import java.util.Date;import org.

2015-07-17 14:03:53 498

原创 hadoop之MapReduce调用R的一次失败的总结~

MapRedure调用R遇到了一系列奇怪的问题，包括前面2篇blog也是为了这个问题去测试。时至今日，我可能耗费了一个星期的时间去追踪它的缘由，但是我依然没有发现它。或许我应该暂时的放下。有待以后换个hadoop的环境再去尝试。毕竟我还不能保证这个hadoop的环境是非常优质的！现在我尽量把问题描述清楚，做一次归档，希望以后有机会从源码的角度去追踪它。毕竟目前自己对hadoop的理

2015-07-14 15:17:58 3724 2

原创 Hadoop之RHbase的rhbase<hbScannerGetList>:: (IOError) Default TException.

接上篇http://blog.csdn.net/yibei8811/article/details/46842079MapReduce调用R的时候会抛出一些异常，我们需要重现它。Rhbase获取的rows提供了2个方法。一个是get()，一个是close()。测试下close()后，再次查看端口，thirft的连接并未中断。那么它起到了什么作用？可以见下图。>> librar

2015-07-12 14:01:04 1641 1

原创 hbase和R之thirft探究

MR去调用R的时候导致R卡住，最终超时退出。分布式的测试比较痛苦。free检查内容，top检查cpu，iostat检查硬盘，发现都未达到瓶颈，那么问题出在哪里？细细检查代码，一行一行定位，发现根本问题在于thirft。下面摘录一段hbase配置thirft相关的参数hbase.thrift.minWorkerThreadsThe "core size" of the thread

2015-07-11 15:27:55 912

原创 free和top命令

查看free命令的时候发现swap设置很大，但是并未使用。检索相关资料居然有说法swap最大只能为2G所以利用下篇blog的c++程序，进行测试，发现swap是可以超过2G的。http://blog.csdn.net/yibei8811/article/details/46459539查看free命令显示如下[root@localhost ~]# free

2015-07-10 10:14:03 446

原创 hbase命令和查看当前连接数

名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录put '表名称', '行名称', '列名称:', '值'查看记录get '表名称', '行名称'查看表中的记录总数count '表名称'删除记录delete '表名' ,'行名称' , '列名称'

2015-07-09 13:55:18 13283

原创 hadoop之hadoop-mapreduce-examples-2.7.0.jar

前2篇blog中测试hadoop代码的时候都用到了这个jar，那么很有必要去分析一下源码。分析源码之前很有必要先写一个wordcount，代码如下package mytest;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;

2015-07-06 16:36:30 11749 1

原创 hadoop之伪分布式

接上篇 http://blog.csdn.net/yibei8811/article/details/46709135配置文件etc/hadoop/core-site.xml:添加 fs.defaultFS hdfs://localhost:9000 --配置hdfs分布式文件系统配置文件etc/hadoop/hdfs-site.xm

2015-07-02 15:52:50 408

原创 hadoop之单机模式

先介绍下hadoop有3种搭建模式单机模式伪分布式模式完全分布式模式现在做个简单的单机模式搭建，单机模式的搭建，主要用于调试方便吧。首先需要配置JAVA_HOME下载JDK1.7以上。/etc/profile中加上export JAVA_HOME=xxx可以下载hadoop了，执行wget http://mirror.bit.edu.cn/

2015-07-01 13:41:43 380

yibei8811的专栏