自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 问答 (2)
  • 收藏
  • 关注

原创 Htable数据的访问问题

做了几天工程,对HBase中的表操作熟悉了一下。下面总结一下常用的表操作和容易出错的几个方面。当然主要来源于大牛们的文章。我在前人的基础上稍作解释。  1.连接HBase中的表testtable,用户名:root,密码:root public void ConnectHBaseTable() {  Configuration conf = new Configuration...

2012-01-31 14:05:54 90

原创 hbase 的导入导出

hbase已经自带了这个命令,下面就说一下怎么使用这个命令(一)设置环境变量在hadoop-0.20.2/conf/hadoop-env.sh 中添加export HBASE_HOME=/home/rain/hbase/hbase-0.90.0export HADOOP_CLASSPATH=$HBASE_HOME/hbase-0.90.0.jar:$HBASE_HOME:$HBAS...

2012-01-31 11:44:53 111

原创 HDFS+MapReduce+Hive+HBase十分钟快速入门(转)

1.     前言本文的目的是让一个从未接触Hadoop的人,在很短的时间内快速上手,掌握编译、安装和简单的使用。2.     Hadoop家族截止2009-8-19日,整个Hadoop家族由以下几个子项目组成:成员名用途Hadoop CommonHadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和...

2012-01-31 11:44:44 80

原创 hive基础

(一): Hive 是什么 在接触一个新的事物首先要回到的问题是:这是什么? 这里引用 Hive wiki 上的介绍: Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanism to put structures on ...

2012-01-31 11:44:28 103

原创 生成HFile以及入库到HBase

一、MR生成HFile文件package insert.tools.hfile;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfig...

2012-01-31 11:43:54 144

原创 hive安装配置

requirement:     Java 1.6    Hadoop 0.20.x. ref:https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-InstallingHivefromaStableRelease1)download hivehttp://hive.apache.org/rel...

2012-01-30 15:14:57 130

原创 HADOOP集群、hive、derby安装部署详细说明

一、创建用户groupadd analyzer -fuseradd analyzer -d /opt/analyzer -g analyzer -p searchanalyzer二、处理/etc/hosts文件三、设置免密码登录(多台机器的id_rsa.pub,相互拷贝)生成公钥、密钥:ssh-keygen -t rsa复制本地id_rsa.pub到远程服务器,使远程服务器登录本地...

2012-01-30 15:10:18 126

原创 利用sqoop将hive数据导入导出数据到mysql

运行环境  centos 5.6   hadoop  hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具在使用过程中可能遇到的问题:sqoop依赖zookeeper,所以必须配置ZOOKEEPER_HOME到环境变量中。 sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH...

2012-01-30 15:08:54 441

原创 详细讲解Hadoop中的一个简单数据库HBase

HBase是Hadoop中的一个简单数据库。它与Google的Bigtable特别相似,但也存在许多的不同之处。 数据模型 HBase数据库使用了和Bigtable非常相似的数据模型。用户在表格里存储许多数据行。每个数据行都包括一个可排序的关键字,和任意数目的列。表格是稀疏的,所以同一个表格里的行可能有非常不同的列,只要用户喜欢这样做。  列名是“<族名>:<标签...

2012-01-30 15:07:59 70

原创 利用Sqoop将数据从数据库导入到HDFS

基本使用如下面这个shell脚本:#Oracle的连接字符串,其中包含了Oracle的地址,SID,和端口号CONNECTURL=jdbc:oracle:thin:@20.135.60.21:1521:DWRAC2#使用的用户名ORACLENAME=kkaa#使用的密码ORACLEPASSWORD=kkaa123#需要从Oracle中导入的表名oralceTableName=tt#需要...

2012-01-30 14:08:47 274

原创 hbase 备份及恢复

1, hbase自带的备份恢复工具 hbase org.apache.hadoop.hbase.mapreduce.Export 'table1' /home/fred/table1 hbase org.apache.hadoop.hbase.mapreduce.Import 'table1' /home/fred/table1 导入时必须先创建表结构。 http://www.iteye.com...

2012-01-29 10:27:00 109

原创 hbase-0.90.4的主要更新

apache邮件列表中提到0.90.4己经准备release了,看了一下所有的patch,这个版本在性能改进上基本没有改进,主要是对很多异常下bug的修复,其中比较重要的bug有以下几个: 1 https://issues.apache.org/jira/browse/HBASE-3820 ----Splitlog() executed while the namenode was in safe...

2012-01-19 16:44:43 78

原创 Hbase MapReduce例子

Hbase Mapreduce例子http://hadoop.apache.org/hbase/docs/current/api/org/apache/hadoop/hbase/mapreduce/package-summary.html#package_descriptionhttp://wiki.apache.org/hadoop/Hbase/MapReduce (Deprec...

2012-01-19 09:53:06 227

原创 提升hbase性能的几个地方(转载)

1、使用bloomfilter和mapfile_index_interval Bloomfilter(开启/未开启=1/0) mapfile_index_interval Exists(0-10000)/ms Get(10001 - 20000)/ms 0 128 22460 23715 0 0 11897...

2012-01-19 09:41:58 56

原创 hadoop hdfs的一些用法

Example 3-1. Displaying files from a Hadoop filesystem on standard output using a URLStreamHandler Java代码 //Reading Data from a Hadoop URL      public class URLCat {       static ...

2012-01-19 09:39:33 105

原创 Jetty 的工作原理以及与 Tomcat 的比较

Jetty 的基本架构Jetty 目前的是一个比较被看好的 Servlet 引擎,它的架构比较简单,也是一个可扩展性和非常灵活的应用服务器,它有一个基本数据模型,这个数据模型就是 Handler,所有可以被扩展的组件都可以作为一个 Handler,添加到 Server 中,Jetty 就是帮你管理这些 Handler。Jetty 的基本架构下图是 Jetty 的基本架构图,整个 Jet...

2012-01-17 09:27:30 61

原创 lzo的安装及在hadoop中的配置

一、前提1、gcc的安装:yum install lib* glibc* gcc* 如果lzo编译出错时可能需要安装2、ant的安装:安装略,最好1.8.2及以上版本,并设置好环境变量 在第三步需要用到ant二、lzo的安装wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.04.tar.gz  ./c...

2012-01-16 16:30:45 78

原创 HBase 之HFileOutputFormat

 hadoop mr 输出需要导入hbase的话最好先输出成HFile格式, 再导入到HBase,因为HFile是HBase的内部存储格式, 所以导入效率很高,下面是一个示例1. 创建HBase表t1hbase(main):157:0* create 't1','f1' 0 row(s) in 1.3280 seconds  hbase(main):158:0> scan 't1...

2012-01-16 14:36:53 536

原创 关于ResultSet.last()方法报错问题的解决

今天看到这样的一个文章,感觉写的挺好,就把它拿过来收藏一下,也与大家分享一下。有位朋友在使用ResultSet.last时,遇到了这样的问题java.sql.SQLException: [Microsoft][SQLServer 2000 Driver for JDBC]Unsupported method: ResultSet.last。 在不想再次通过查询数据库得到记录条数的情况下,(...

2012-01-12 17:37:36 98

原创 Linux下查看系统信息命令大全

Linux下查看系统信息命令大全查看系统# uname -a # 查看内核/操作系统/CPU信息# head -n 1 /etc/issue # 查看操作系统版本# cat /proc/cpuinfo # 查看CPU信息# hostname # 查看计算机名# lspci -tv ...

2012-01-12 15:25:00 74

原创 深入浅出Hadoop 高效处理大数据

Hadoop与Google一样,都是小孩命名的,是一个虚构的名字,没有特别的含义。从计算机专业的角度看,Hadoop是一个分布式系统基础架构,由Apache基金会开发。Hadoop的主要目标是对分布式环境下的“大数据”以一种可靠、高效、可伸缩的方式处理。设想一个场景,假如您需要grep一个100TB的大数据文件,按照传统的方式,会花费很长时间,而这正是Hadoop所需要考虑的效率问题。  关于...

2012-01-11 16:40:10 1140

原创 HBase加载大数据

一、概述HBase有很多种方法将数据加载到表中,最简单直接的方法就是通过MapReduce调用TableOutputFormat方法,或者在client上调用API写入数据。但是,这都不是最有效的方式。这篇文档将向你描述如何在HBase中加载大数据。采用MapReduce作业,将数据以HBase内部的组织格式输出成文件,然后将数据文件加载到已运行的集群中。(注:就是生成HFile,然后加载...

2012-01-11 16:37:18 98

原创 把xls的数据导到Hbase

这属于Hbase的一个例子,不过Hbase的例子有点问题,需要更改下。 其实我感觉Hbase属于一个BigTable,感觉和xls真的很像,闲话不说了,上code才是王道。Java代码      import java.io.IOException;     import org.apache.hadoop.conf.Configuration;   ...

2012-01-11 16:31:03 144

原创 利用sqoop将hive数据导入导出数据到mysql

运行环境  centos 5.6   hadoop  hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具在使用过程中可能遇到的问题:sqoop依赖zookeeper,所以必须配置ZOOKEEPER_HOME到环境变量中。 sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH...

2012-01-11 16:28:32 165

原创 HBase性能调优

因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer...

2012-01-11 10:57:43 46

原创 hadoop配置中的重要参数

参数取值备注fs.default.nameNameNode的URI。hdfs://主机名/mapred.job.trackerJobTracker的主机(或者IP)和端口主机:端口dfs.name.dirNameNode持久存储名字空间及事务日志的本地文件系统...

2012-01-09 17:09:45 142

原创 如何禁用ubuntu的IPV6

禁止 IPv6 需要在启动内核后面加入“disable_ipv6=1” 做内核参数直接传递。 可用以下方法: 修改grub:gksu gedit /etc/default/grub 将 GRUB_CMDLINE_LINUX_DEFAULT="quiet splash" 变为 GRUB_CMDLINE_LINUX_DEFAULT="ipv6.disable=1 quie...

2012-01-09 09:26:46 96

原创 用js使得输入框input只能输入数字

觉得很好用 就收藏了JS判断只能是数字和小数点1.文本框只能输入数字代码(小数点也不能输入)<input onkeyup="this.value=this.value.replace(/\D/g,'')" onafterpaste="this.value=this.value.replace(/\D/g,'')">2.只能输入数字,能输小数点.<input onkeyup="if...

2012-01-06 14:43:20 92

原创 iframe父子窗口间js方法调用

window.parent与window.opener的区别 javascript调用主窗口方法1:   window.parent 是iframe页面调用父页面对象举例:a.html<html> <head><title>父页面</title></head><body> <form n...

2012-01-06 11:25:29 67

原创 [手冊] 幫人安裝Ubuntu時的調校 [論壇 - Ubuntu基本設定]

安裝建議〕A.裝於主機硬碟時:在最後一個安裝步驟畫面「準備就緒以安裝」按「進階」 然後於「開機載入程式」那一段將「Device for bootloader installation:」選為「/dev/sdxy」 x代表安裝目標硬碟 y代表安裝目標分割區原本的預設值「/dev/sdx」是把GRUB開機載入程式裝到硬碟的MBR若照這樣 用戶重灌Windows時 Windows會把MBR中的GRUB洗...

2012-01-04 15:13:27 179

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除