一无所有自知之明-CSDN博客

原创微软推出的codehunt编码游戏很有意思返回字符串中指定字符的个数

给大家推荐一个编码游戏www.codehunt.com很有意思，支持java c++ c#举个简单的例子给定字符串和一个字符，让你返回字符串中字符的个数一星做法：将String转成char数组，遍历计数: public static int geti(String s, char a) { char[] arrC = s.toCharArray(

2014-05-22 10:28:01 3082

原创用hbase(0.92版本以上）的协处理器实现快速返回查询结果总数

在0.92版本的hbase上添加了协处理器的功能，协处理器分为两大部分 endpoint和observer.observer相当于一个钩子的作用，根据钩子运行的模块来划分，又分成三个RegionObserver：用这个做数据操纵事件，其紧密的绑定到表的regionMasterObserver：处理集群级别的事件：管理操作和数据定义语言操作WALObserver：预写日志处理而e

2013-01-14 16:19:06 6512 5

原创测试HDFS读性能－读到本地缓存，不写硬盘的性能

如果测试读完存到本地文件的话，直接用fs.copyToLocalFile()方法即可，但是如果测试读到缓存的性能，则需要用到FSDataInputStream上代码：/** * @ProjectName: Hadoop预研平台 */package com.hikvision.hdfs.test.performance;import java.io.IOException

2013-01-12 11:21:05 3357 1

转载基于索引的SQL语句优化之降龙十八掌

不知最终出处，故未列出1 前言客服业务受到SQL语句的影响非常大，在规模比较大的局点，往往因为一个小的SQL语句不够优化，导致数据库性能急剧下降，小型机idle所剩无几，应用服务器断连、超时，严重影响业务的正常运行。因此，称低效的SQL语句为客服业务的‘恶龙’并不过分。数据库的优化方法有很多种，在应用层来说，主要是基于索引的优化。本次秘笈根据实际的工作经验，在研发原来已有

2013-01-06 17:03:54 1031

原创 hbase自带mapreduce计数表行数功能

$HBASE_HOME/bin/hbase org.apache.hadoop.hbase.mapreduce.RowCounter ‘tablename’ mapreduce来计数，很快的！！！

2012-12-18 10:00:27 10372 4

原创自写filter步骤和注意事项

hbase本身提供了很多filter来实现服务器端过滤的功能，诸如Filter, FilterBase, CompareFilter;一些Comparators类;Comparison Filters;Dedicated Filters;Decorating Filters;FilterList;Custom Filters。但是这些filter往往不能满足我们的实

2012-12-13 15:54:14 3294

原创单元测试概述（可作为单元测试计划说明书的一个章节）

测试概述1.1 测试目标本次单元测试的目标为通过检查软件内部的逻辑结构，对软件中的逻辑路径进行覆盖测试;在程序不同地方设立检查点，检查程序的状态，以确定实际运行状态与预期状态是否一致。1.2 测试方法本次单元测试采用白盒测试的测试用例设计方法，采用白盒测试方法中的基本路经测试法，此方法是是在程序控制流图的基础上，通过分析控制构造的环路复杂性，导出基本可执行路径集合，从而设计

2012-12-07 16:01:53 4180 6

原创谋定而后动，相信自己的判断

所谓谋定，需要定谋如下几个关键项：哪一支？长中短线？止赢止损价？何时入手？其他一些价格点经过几番摸索，实践，发现几个以后要遵循的原则，操作止于短线，原则如下：1.必须定止赢止损，尽量少操作，如果没达到两个线2.选择上升势头的，而非随意去寻找所谓抄底的机会，而且上升到超过前一天的最高价，此时可入手3.短线可以定低一点的止赢，2%即可。

2012-12-04 16:48:07 913 1

转载 MySQL核心参数和推荐配置三

MySQL手册上也有服务器端参数的解释，以及参数值的相关说明信息，现针对我们大家重点需要注意、需要修改或影响性能的服务器端参数，作其用处的解释和如何配置参数值的推荐，此事情拖了不少时间，为方便大家帮忙纠错（注：总是断断续续写的，可能存在笔误），先以文章的方式发布到网站，后续确定没问题，将会通过新浪微博的微盘提供PPT下载，方便学习和参考。l innodb_flush_log_at_trx

2012-11-30 14:45:24 821

转载 MySQL核心参数和推荐配置二

MySQL手册上也有服务器端参数的解释，以及参数值的相关说明信息，现针对我们大家重点需要注意、需要修改或影响性能的服务器端参数，作其用处的解释和如何配置参数值的推荐，此事情拖了不少时间，为方便大家帮忙纠错（注：总是断断续续写的，可能存在笔误），先以文章的方式发布到网站，后续确定没问题，将会通过新浪微博的微盘提供PPT下载，方便学习和参考。l innodb_commit_concurren

2012-11-30 14:43:14 956

转载 MySQL核心参数和推荐配置一

MySQL手册上也有服务器端参数的解释，以及参数值的相关说明信息，现针对我们大家重点需要注意、需要修改或影响性能的服务器端参数，作其用处的解释和如何配置参数值的推荐，此事情拖了不少时间，为方便大家帮忙纠错（注：总是断断续续写的，可能存在笔误），先以文章的方式发布到网站，后续确定没问题，将会通过新浪微博的微盘提供PPT下载，方便学习和参考。l lower_case_table_names

2012-11-30 14:41:52 935

转载 linux下的top命令参数说明（virt,res,shr,data 的意义）

%mem 内存使用率virt 是虚拟内存res是常驻内存shr是共享内存top命令下按f键可以看到详细说明* A: PID = Process Id* E: USER = User Name* H: PR = Priority* I: NI = Nice value* O: VIRT

2012-11-29 11:39:09 35298

原创用mapreduce来操作hbase的两点优化

用MR来对hbase的表数据进行分布式计算。有两点配置可以优化操作，提升性能。它们分别是：(1)scan.setCacheBlocks(false); 然后调用下面这句来初始化map任务 TableMapReduceUtil.initTableMapperJob这个配置项是干什么的呢？本次mr任务scan的所有数据不放在缓存中，一方面节省了交换缓存的操作消耗，可以提升

2012-11-29 10:08:29 4939

原创关于性能优化的一点总结

优化有两条准则：别做优化和先不要做优化。优化的技巧有：根据测定，发现瓶颈减少对象，减少方法调用避开用代码实现的方法使用立即值瓶颈部分换高效的语言以空间换时间

2012-11-28 10:56:38 950

原创 HDFS读取实时写入的文件大小

1.用HDFS API写入数据，如何能够读到最新写入的数据？2.如果写操作一直在进行，但没关闭FileSystem fs，如何获取所写文件的当前大小。想获取最新写入的数据，即使写操作一直没断一直没关闭fs，如何来做呢？用FSDataInputStream dis = fs.open(path);来做，参考下面函数testRead函数的已注释部分。如何获取实时的文件大小

2012-05-21 18:58:56 7894

原创 HTablePool简单使用例子

HTablePool用在经常要创建表关闭表的程序中，可以大大优化性能，提高效率。HTablePool()HTablePool(Configuration config, int maxSize)HTablePool(Configuration config, int maxSize, HTableInterfaceFactory tableFactory)maxSize并非tabl

2012-04-25 16:19:04 5368

翻译 cdh4b1之HDFS的HA(High Availability)原理简介

0 引入以前Hadoop版本中，NameNode是HDFS集群的单点故障(single point of failure,SPoF)，SPoF指系统中这个部件失效或停止运转将会导致整个系统不能工作。而这在下面两种情况出现： (1) 意外事件如机器crash，集群直到重启NameNode操作执行后才可用； (2) 计划维修事件，如Na

2012-04-19 10:03:59 3010

原创用MR(MapReduce)查询hbase数据－用到TableMapper和Scan

首先，可以设置scan的startRow, stopRow, filter等属性。于是两种方案：1.设置scan的filter，然后执行mapper，再reducer成一份结果2.不用filter过滤，将filter做的事传给mapper做进行了测试，前者在执行较少量scan记录的时候效率较后者高，但是执行的scan数量多了，便容易导致超时无返回而退出的情况。而为了实现后者，学会了如何

2012-01-12 20:32:15 27940 13

原创实验hbase的test中的TestTableMapReduce类--修改成简单易懂点的

不积跬步，无以至千里！这几天狂看mapreduce对hbase进行操作的例子，消化吸收，熟能生巧，掌握mapreduce和hbase交互的各个细节，以及整体流程等，整体流程等年前写一篇总结下，这几天先狂看吧看，复制，修改，运行，遇到各种问题，解决，慢慢的就熟了。这个类是干啥的呢，其实就是对hbase的某表进行简单操作，不过用的是mapreduce，即效率高，当然，看这个，主要吸收其用m

2012-01-10 15:29:53 3713

原创 eclipse写MAPREDUCE程序对HBase表进行操作之 IndexBuilder(对已有表建索引)

开源 hbase的example/mapreduce里有个类IndexBuilder是用来对已有表建索引的。其代码有一点点需要修改conf.set(TableInputFormat.SCAN, TableMapReduceUtil.convertScanToString(new Scan()));conf.set(TableInputFormat.SCAN, convertScanToSt

2012-01-09 20:18:41 8842 7

原创 MR中Partition的使用源码示例

一、环境1、hadoop 0.20.22、操作系统Linux二、背景1、为何使用Partitioner，主要是想reduce的结果能够根据key再次分类输出到不同的文件夹中。2、结果能够直观，同时做到对数据结果的简单的统计分析。三、实现1、输入的数据文件内容如下(1条数据内容少，1条数据内容超长，3条数据内容正常)：kaka 1 28hua 0 26chao

2011-12-24 11:35:30 2129

转载 java.lang.Comparable

org.apache.hadoop.io.WritableComparable extends Writable, Comparable自写Key时便用到了WritableComparable,于是追到这里。下面的是转载的东西，自己试了，简单明了此接口强行对实现它的每个类的对象进行整体排序。此排序被称为该类的自然排序，类的compareTo方法被称为它的自然比较方法。实现此接口的对象列

2011-12-23 09:36:12 1311

原创客户端用java api 远程操作HDFS以及远程提交MR任务(源码和异常处理)

两个类，一个HDFS文件操作类，一个是wordcount 词数统计类，都是从网上看来的。上代码：package mapreduce;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;

2011-12-22 10:11:57 15521 4

一年一度的Hadoop中国2011云计算大会，作为Hadoop in China社区的一次年度技术盛会，于12月2日至3日在北京成功举行。大会的亮点之一就是邀请了多位Apache软件基金会的专家，例如Apache软件基金会主席兼Apache Hadoop项目负责人Doug Cutting先生等。大会的第二天，记者参加的“Hadoop生态系统”分会场报告环节。Trend Micro的专家兼Apach

2011-12-15 11:36:26 1351

原创 HBase addColumn addColumns 两个函数的deprecated解决方法

HBase addColumn addColumns 两个函数的deprecated解决方法用HBase0.90.4版本，又用ITHBase，ITHBase称自己支持 HBase0.90版本的,但是有一些error和warning，error的解决方法在前一篇文章二级索引安装配置里说过了。而很多的warning都跟addColumn(), addColumns()这两个函数有关，大体意思就是

2011-12-14 10:40:06 5311

原创 ScannerTimeoutException 问题分析与解决方法

遇到一些hadoop，hbase相关的异常，有时会有不知怎么解决的感觉，首先要确定问题，然后找出引起此问题的原因，再然后制定解决方案，最后选择一种实行。hbase源码如巨人般站在我们的心中，让心强大起来，巨人就变小了言归正传：1.首先寻根朔源scannerTimeout：Thrown when a scanner has timed out.当一个scanner超时时抛出此异常，是

2011-12-09 14:35:25 6797 2

原创实现HBase二级索引的配置与使用--ITHBase

遇到自己眼中乱如麻、大如山的问题，保持平常心，不要急躁，冷静的分析思考寻找突破点，解决之后，发现原来那些如山如麻般的问题其实只是小土丘子、小线团子一 ITHbase的安装配置ITHbase的全称是 Indexed Transactional HBase，事务性是它的重要特性。1.编译(1)用eclipse作为项目打开hbase-trx-hbase-transactional-tab

2011-12-06 09:09:44 8102 19

转载 hive4：Hive QL

Hive QLHive 的官方文档中对查询语言有了很详细的描述，请参考：http://wiki.apache.org/hadoop/Hive/LanguageManual ，本文的内容大部分翻译自该页面，期间加入了一些在使用过程中需要注意到的事项。Create TableCREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name[(col_

2011-11-30 15:03:56 5718

转载 hive3:hive和关系型数据库RDBMS的异同

摘要：由于 Hive 采用了 SQL 的查询语言 HQL，因此很容易将 Hive 理解为数据库。其实从结构上来看，Hive 和数据库除了拥有类似的查询语言，再无类似之处。本文将从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中，但是Hive 是为数据仓库而设计的，清楚这一点，有助于从应用角度理解 Hive 的特性。Hive 和数据库的比较

2011-11-30 14:26:29 4627 1

转载 hive2:HIVE的结构

Hive 体系结构Hive 的结构如图所示，主要分为以下几个部分：用户接口，包括 CLI，Client，WUI。元数据存储，通常是存储在关系数据库如 mysql, derby 中。解释器、编译器、优化器、执行器。Hadoop：用 HDFS 进行存储，利用 MapReduce 进行计算。用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是 CLI，Cl

2011-11-30 14:10:06 4497

转载 Hive学习笔记1--------Hive入门

（转自淘宝数据平台团队） Hive 是什么在接触一个新的事物首先要回到的问题是：这是什么？这里引用 Hive wiki 上的介绍： Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanis

2011-11-26 11:37:08 1287

原创在mysql/oracle新建列将现有几列连接起来作为其值以用sqoop导入到hbase时作为rowkey

在上一篇文章：sqoop之从oracle导入hbase的问题与sqoop hbase 需要注意的一个问题的最后我提出了一个待研究的问题：对rdbms，如mysql中的一个表，假设有四列，由于hbase的rowkey设计好了会极大提高查询效率，一般将其rowkey用mysql中的三列组合起来，即假设mysql表中为：姓名，出生年月，地点，工资。可以令rowkey为姓名_出生年月_地点

2011-11-10 10:15:55 5447 2

原创 sqoop之从oracle导入hbase的问题与sqoop hbase 需要注意的一个问题

sqoop从oracle导入，需要有ojdbc6.jar,放在$SQOOP_HOME/lib里，不用添加到classpath里，因为sqoop会自己遍历lib文件夹并添加里面的所有jar包 --connect与mysql的不一样，如下（shell脚本中的主要部分）#Oracle的连接字符串，其中包含了Oracle的地址，SID，和端口号#CONNECTURL=jdbc:oracle:th

2011-11-09 20:38:55 21207 4

原创 Sqoop安装配置与从mysql中导入数据到hbase

1.下载以下三个包： sqoop-1.2.0-CDH3B4.tar hadoop-0.20.2-CDH3B4.tar mysql-connector-java-5.1.18.tar2.解压sqoop包，配置/etc/profile的 SQOOP_HOME为解压位置在PATH里加上$SQOOP_HOME/bin 新建ZOOKEEPER_HOME为HBASE里zookee

2011-11-08 09:38:03 11402 15

原创 linux(centos6)下 hadoop安装之ssh配置脚本 permission denied

配置ssh费老劲了！以前没玩过linux，学到很多东西，命令熟了很多1.首先是修改 /etc/ssh/sshd_config　 ssh的配置文件其中#行指注释掉得主要的几个：Protocol 2　←去掉# 修改后变为此状态，仅使用SSH2ServerK

2011-10-14 11:08:55 6308

转载 placement new, operator new and new operator

笔者觉得这3个new有点意思，有时候我也被搞懵了，这些创造者难不成觉得C++过于简单，所以搞一点含糊的术语出来。这次总结一下，以便再懵的时候有个参考。有错的地方请不吝赐教，多谢先！简单点吧:1. new operator，即熟悉的new操作符，用它从堆中分

2011-09-16 10:43:32 528

转载 java中String的比较

看例子：例子A： Java代码 String str1 = "java"; String str2 = "java"; System.out.print(str1==str2); 地球上有点Java基础的人都知道

2011-09-14 17:08:45 530

原创 JAVA-编译-包-将源文件和类文件分开

最近开始学习java1 DOS下，进入.java文件所在目录，比如，我的是F:\TestJava\source2 在环境变量CLASSPATH 添加F:\TestJava3 新建一个list.txt文件，里面列出所有的要编译的.java文件假设有三个Exam2

2011-09-14 09:58:53 2693

Hadoop权威指南(中文版)-带书签

CDH4_High_Availability_Guide_b1.pdf

Hadoop权威指南第二版英文版（高清，可复制）

空空如也