2012年01月_JavaMan_chen

12月 11月 10月 09月 08月 06月 03月 02月 01月

原创 HBase之Java API

1.Configuration在使用Java API时，Client端需要知道HBase的配置环境，如存储地址，zookeeper等信息。这些信息通过Configuration对象来封装，可通过如下代码构建该对象 Configuration config=HBaseConfiguration.create();在调用HBaseConfiguration.create(

2012-01-30 17:15:39 20846 2

原创 HBase之功能细节

1.Region定位在Google的BigTable体系中，tablet的存储地址通过3层目录结构来定位的，如图所示：注：tablet等同与HBase中的Region图释说明：(1)METADATATableMETADATATable是系统预定义的Table,当用户自定义表格被拆分成多个tablet之后,METADATA Table用来存储这些tablet的地址

2012-01-14 11:49:44 5449 2

原创 HBase之体系结构(Architecture)

HBase在分布式部署上采用master/slave的方式，主要包含3大功能组件，分别是：RegionServer、MasterServer和ClientLibrary在分布式存储上使用的是Hadoop的HDFS子框架分布式计算功能基于Hadoop的MapReduce实现1.RegionRegion作为HBase的分布式存储单元包含了一组Row，这些Row的key值在索引排序上是连

2012-01-13 09:02:20 4059

原创 HBase之数据模型(DataModel)

HBase基于Google的BigTable构建，是一种column-orientednosql数据库1.模型视图1.1概念视图从概念模型上看，HBase的存储逻辑同关系数据库类似，是基于Table的存储，存储视图如图所示：图中列出了表格的一条记录，com.cnn.www是该记录的主键，contents:、anchor:cnnsi.com和anchor:my.look.ca

2012-01-12 16:23:08 4854 1

原创 HBase集群搭建

一、安装环境：至少两台linux主机，假设两台机器的登录用户名都为hbase，并且IP分配如下：192.168.7.85 master机器192.168.7.72 slave机器集群的每台机器需要安装如下软件：1.ubuntu linux2. jdk6.0或以上版本 $ apt-get install openjdk-6-jd

2012-01-10 17:41:45 10179

原创常用NoSQL比较

公司最近正在做NoSQL选型，通过一周的时间对几种常用的NoSQL做了以下粗略的分析和比较名词解释:分布式存储单元：在分布式存储中，通常要把比较大的数据文件切割成不同的块，以便放到不同的机器上分开存储，每一个分割块称之为一个存储单元。一、CouchDBCouchDB是一种面向文档(document-oriented)的nosql数据库，文档的存储格式通过JSON进行描述，在结构

2012-01-09 09:04:13 5174 1

原创 Nutch加Hadoop集群搭建

1、Apache Nutch Apache Nutch是一个用于网络搜索的开源框架，它提供了我们运行自己的搜索引擎所需的全部工具，包括全文搜索和Web爬虫。1.1、Nutch的组件结构WebDB:存储网页数据和连接信息Fetch lists:将WebDB所存储的连接分成多个组，来用于分布式检索Fetchers:检索Fetch list中的内容并下载到本地，共有两项输出：

2012-01-06 09:18:15 6666 2

原创 XPath和JCR-SQL2性能比较

最近，对jackrabbit中Xpath和JCR-SQL2的查询性能做了一下比较，虽然JCR从2.0版本开始不再推荐使用XPath，但从查询性能上来讲，XPath似乎远高于JCR-SQL2以下是查询比较结果测试环境： Jackrabbit 2.2.7 操作系统 Windows 2003 内存 4G 处理器 AMD Athlon

2012-01-05 16:32:56 4412 13