2015年04月_Eric-L90

12月 11月 10月 09月 08月 07月 06月 05月 04月 01月

转载 PostgreSQL中COUNT的各条件下（1亿条数据）例子

插入一亿条数据(示例数据库：9.3.5)参考资料：http://www.oschina.net/question/96003_70381?1234test=#insertinto tbl_time1 selectgenerate_series(1,100000000),clock

2015-04-28 23:07:15 3939

转载 MySQL中SELECT ... INTO的用法

MySQL中SELECT... INTO的用法官方文档表述：1.SELECT... INTO var_list selects column values and stores them intovariables.2.SELECT... INTO OUTFILE writes the selected rows to a file. Column andline terminator

2015-04-27 20:22:15 1460

转载 postgresql以及mysql的数据导出导入到文件

创建复合主键：create table mapping(adminId integer,roleId integer, primary key(adminId,roleId));这样我的两个字段就都成为主键了。创建符合主键的同时建立外键：myd=# create table mapping(adminId integer references admin(id),roleI

2015-04-25 15:41:46 1795

转载 Linux中设置服务自启动的三种方式

Linux中设置服务自启动的三种方式转载自：http://www.cnblogs.com/nerxious/archive/2013/01/18/2866548.html

2015-04-25 11:13:18 608

原创 linux设置使用交换区参数

linux交换区，页脚虚拟内存。简单点说就是从硬盘上拿出一定大小的空间来当做虚拟内存，如果物理内存不够用了，就将物理内存中的一些较长时间不用的数据放到虚拟内存中，也就是硬盘上，用的时候再取出来。当然，这样会影响性能。毕竟虚拟内存不是真正的内存嘛。再说，在现在内存越来越便宜的情况下，也并不需要虚拟内存就够用了。所以，下面说一下虚拟内存控制参数：Swap分区在系统的物理内存不够用的时候，把硬盘

2015-04-24 10:47:38 1510

最近在使用hbase的时候，遇到了热点问题。我有三台regionserver，结果入数据的时候，总是在一台机器上写数据，导致io和cpu都很高，最后出现了memstore内存溢出的问题。后来才明白，这是因为刚开始入数据的时候只有一个region，所以数据一直往第一台机子的region上写。等到region到了一定大小之后才开始分割成两个。这样就导致了热点问题。采取的方案就是创建表的时候提前创建好分

2015-04-24 10:28:10 4177

原创 java 中用split分割字符串，最后的空格等不被拆分。

在使用java中的split按照“\t”，拆分字符串的时候，发现如果最后的几个字段是空，只是用\t分割，是连着的\t的话，就不会被分割，如 “d\tc\te\t\t\t”最后的几个\t就不会被分割，应该是在拆分之前对字符串进行了处理。导致的拆分字段个数错误。查了一下APi,需要在split中添加参数-1,String[] values = line.split("\t",-1);imit

2015-04-21 11:40:03 11417

转载 Java无需解压直接读取Zip文件和文件内容

package test;import java.io.BufferedInputStream; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStream; import java.io.InputStreamReader; import java.ut

2015-04-17 16:13:56 2630

转载 Java实现获取指定路径下的指定格式的文件，如bcp,txt等

在使用java的过程中，通常会用到一些小的知识点，如搜索特定格式的文件等等，实现的方式有多种，找一种顺手的就可以了。搜索特定文件的本地还是使用endWith()函数。以前写c/c++的时候没有发现这么好用的函数。哈哈package filenameFilter; import java.io.File; /* * 实现功能: * 获取指定路径下的指定格式的文件;

2015-04-17 16:05:42 3608

原创 hdfs随机读写文件

hdfs适合因为存储的是大文件，从寻址等消耗来看，更加适合于流式的方式操作文件，但是，hdfs并不是不能进行随机读写，hdfs也是支持随机读写的。主要通过FSDataInputStream类读，通过FSDataOutputStream类写。下面是两个例子例1：从本地读，写入到hdfsimport java.io.IOException;import java.net.URI;im

2015-04-14 21:58:30 6750

原创一个java的单例类

其实初学java的时候一直没有弄明白单例是什么意思，现在终于明白了。下面是一个简单的单例：public class SingleInstance { //设置一个实例对象，只允许这一个类对象 private static SingleInstance instance = null; //私有化构造函数，保证不被其他的使用 private SingleInstance() {

2015-04-14 11:45:51 671

转载编辑距离与编辑算法

转载自：http://www.cnblogs.com/biyeymyhjob/archive/2012/09/28/2707343.html这个算法是比较好的，在lucene中是用来进行模糊匹配的。编辑距离概念描述：编辑距离，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，

2015-04-13 16:13:40 560

转载 HBase的数据的update，是如何保证获取最新数据的

转载自 http://www.aboutyun.com/thread-12452-1-1.html1.hbase威慑么是三维度表？2.hbase如何区别是否是同一条记录？3.hbase是如何保证获取的是最新数据的？阅读之前需要明白什么是wal:WAL(Write-Ahead-Log)是HBase的RegionServer在处理数据插入和删除

2015-04-10 10:16:27 4257

原创 HBase的协处理器问题，prePut函数无法触发。

今天在使用HBase的协处理器的时候，遇到了问题，使用的是prePut方法，相当于触发器。从网上找了个例子，如下：public class TestCoprocessor extends BaseRegionObserver { @Override public void prePut(final ObserverContext e, final Put put, final WA

2015-04-09 14:50:00 1569

原创 CDH 中hbase的Regionserver自动退出问题

最近使用的cloudera manager搭建的hadoop集群。是挺方便的，在使用hbase的时候用到问题了。我使用java客户端去进行入库，为了速度使用的批量提交的模式，开始的时候1000条提交一次，没有问题。后来换成1w条提交一次就出现问题了。regionserver自动退出了，这种情况一般肯定是内存的原因，去找日志，结果什么日志都没有。。。。。日志是正常的。。。。后来才发现，clouder

2015-04-08 16:22:25 3668