IQuicksandI-CSDN博客

转载 Hbase shell 常用命令

下面我们看看HBase Shell的一些基本操作命令，我列出了几个常用的HBase Shell命令，如下：名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'查看记录

2013-04-05 23:34:52 1004

转载 hbase安装配置（整合到hadoop）

hbase安装配置（整合到hadoop） Huangguisu1.快速单机安装：在单机安装Hbase的方法。会引导你通过shell创建一个表，插入一行，然后删除它，最后停止Hbase。只要10分钟就可以完成以下的操作。1.1下载解压最新版本选择一个 Apache 下载镜像：http://www.apache.org/dyn/closer.cgi/hbase/，下载 HBase R

2013-04-05 23:19:40 1181

转载 HBase shell 简单使用

HBase提供了丰富的访问接口。　　• HBase Shell　　• Java clietn API　　• Jython、Groovy DSL、Scala　　• REST　　• Thrift（Ruby、Python、Perl、C++…）　　• MapReduce　　• Hive/Pig其中HBase Shell是常用的便捷方式首先你需要一个HBase的环境，如果

2013-04-05 23:07:18 1128

转载替换SQL字段中的换行符，回车符

替换SQL字段中的换行符，回车符：在富文本内容中通常会出现回车、换行内容。在sql数据库中这些回车、换行符，输出html后，表现为空格。这里是在数据导出、导入中发现的，通常把回车、换行符找出来，用替换。这里使用了，sql 函数。replace(string_expression , string_pattern , string_replacement),第一个参数：要查找的字段

2013-03-29 13:02:19 6409

转载 KETTLE Configuring for Cloudera

To communicate with Cloudera, you must change which version of Hadoop to use when communicating with a Hadoop cluster.Within the file plugins/pentaho-big-data-plugin/plugin.properties, update th

2013-03-04 15:10:03 1334

转载 JAVA 对象序列化

对象序列化：就是将一个对象转换为二进制的数据流，如果一个类的对象要想实现对象序列化，则对象所在的类必须实现Serializable接口。在此接口中没有任何的方法，此接口只是作为一个标识，表示本类的对象具备了序列化的能力而已。如果要想完成对象的序列化，则还要依靠ObjectOutputStream 类和 ObjectInputStream类，前者属于序列化操作，而后者属于反序列化操作

2013-02-10 00:18:46 951

转载 JAVA 字符编码

在程序中如果字符编码没有处理完整，则肯定会造成乱码，常见的编码有以下几种：UTF：包含了以下的编码ISO 8859-1：是包含全部的英文编码GBK/GBK2312：表示中文，GBK 表示简体中文和繁体中文、GB2312只表示简体中文如果程序中操作的编码与本地的环境编码不统一，那么操作的时候就有可能出现乱码。package org.encodedemo;public

2013-02-09 22:51:47 844

转载 JAVA Scanner 类

Scanner 是一个新的操作类，是在java.util 包中提供的一个操作类，使用此类可以方便的完成输入流的输入操作：package org.scannerdemo;import java.util.Scanner;public class ScannerDemo01 { /** * @param args */ @SuppressWarnings("resou

2013-02-09 22:39:31 4748

转载 Hadoop Hive与Hbase整合

用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面的 hql查询.hive也即做数据仓库1. 基于Hadoop+Hive架构对海量数据进行查询：http://blog.csdn.net/kunshan_shenbin/article/details/71053192. HBase

2013-02-05 21:00:44 1300

原创 HADOOP JAVA接口

从Hadoop URL 中读取数据package org.urlcat;import java.io.InputStream;import java.net.URL;import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;import org.apache.hadoop.io.IOUtils;public cla

2013-02-03 14:31:26 3647

转载 HIVE 通过 MYSQL 保存元数据

1.安装hadoop（1.0以上） 2.安装hive安装（0.9.0以上版本） 4.当然你还得安装jdk 4. mysql，同时准备个可访问的账号，这里采用root，最好配上远程访问权限。修改hive下的conf文件夹中将 hive-default.xml.template 复制并改名成 hive-site.xml这里是我的文件 hive.metas

2013-02-03 13:14:27 1986

转载 Linux下chkconfig命令详解

chkconfig命令主要用来更新（启动或停止）和查询系统服务的运行级信息。谨记chkconfig不是立即自动禁止或激活一个服务，它只是简单的改变了符号连接。使用语法：chkconfig [--add][--del][--list][系统服务] 或 chkconfig [--level ][系统服务][on/off/reset]chkconfig在没有参数运行时，显示用法。如果加上服务

2013-02-03 00:07:05 740

转载 HIVE JDBC

一、Eclipse 导入 JAR包HIVE/LIB/*HADOOP/LIB/hadoop-core-1.1.1.jar二、启运HiveServerhive --service hiveserver 10000 &三、连接JAVA 测试代码package org.hivequery; import java.sql

2013-01-31 00:03:36 5213 1

转载 JAVA JDBC

JDBC, Java Database Connecive, Java 数据库连接，是一组专门负责连接并操作数据库的标准，在整个JDBC 中实际上大量的提供的是接口。针对于各个不同的数据库生产商，只要想使用JAVA 进行数据库的开发，则对这些标准有所支持。JDBC 在使用中常见的有以下三类：JDBC-ODBC 桥连接：是SUN 在JDK的开发包中提供的最标准的一套JDBC 操作类库，使用

2013-01-26 18:23:28 56512 1

原创 HIVE Row_Sequence 实现列自增长

package org.rowsequence;import org.apache.hadoop.hive.ql.exec.Description;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.hive.ql.udf.UDFType;import org.apache.hadoop.io.LongWr

2013-01-26 00:53:16 12722 2

转载 hive中使用自定义函数(UDF)实现分析函数row_number的功能

之前部门实现row_number是使用的transform，我觉得用UDF实现后，平时的使用会更方便，免去了transform相对繁琐的语法。用到的测试表为：hive> desc row_number_test;OKid1 intid2 stringage intscore doublename string hive> se

2013-01-26 00:30:27 5812

原创 HIVE 通过正则匹配字段分列

通过 SerDe(serialize/deserialize) ，在数据序列化和反序列化时格式化数据。这种方式稍微复杂一点，对数据的控制能力也要弱一些，它使用正则表达式来匹配和处理数据，性能也会有所影响。但它的优点是可以自定义表属性信息 SERDEPROPERTIES ，在 SerDe 中通过这些属性信息可以有更多的定制行为。原数据类型："abc"@_@123@_@

2013-01-25 17:36:31 11624

原创 HIVE 自定义函数 UDF

Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。一、背景：Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：a）文件格式：Text File，Sequence Fileb）内存中的数据格式： Java Integer/St

2013-01-24 21:54:46 4912

转载 HIVE 命令行

执行一个查询$HIVE_HOME/bin/hive -e 'select a.col from tab1 a'之后过程中，会在终端上显示mapreduce的进度，执行完毕后，最后把查询结果输出到终端上，接着hive进程退出，不会进入交互模式。使用静音模式执行一个查询$HIVE_HOME/bin/hive -S -e 'select a.col from tab1

2013-01-23 22:11:13 24994

转载 HIVE 动态分区与静态分区

HIVE分区，实际上是通过一个路径来标识的，而不是在物理数据中。比如每天的数据，可能分区是pt=20121023这样，那么路径中它就会变成：/hdfs/path/pt=20121023/data_files。通过路径来标识的好处是，如果我们需要取特定分区的数据，只需要把这个路径下的数据取出来就可以了，不用扫描全部的数据。HIVE默认是静态分区。但是有时候可能需要动态创建不同的分区，比如商品

2013-01-23 21:55:22 8239

转载 HIVE 文件存储格式

hive在建表是，可以通过‘STORED AS FILE_FORMAT’ 指定存储文件格式例如：[plain] view plaincopy> CREATE EXTERNAL TABLE MYTEST(num INT, name STRING) > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' > STORED A

2013-01-23 21:38:52 1402

转载 HIVE RCFile高效存储结构(zz)

本文介绍了Facebook公司数据分析系统中的RCFile存储结构，该结构集行存储和列存储的优点于一身，在 MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE（IEEE International Conference on Data Engineering）会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中，提供了一套类数据

2013-01-23 15:02:28 1025

原创 HIVE 处理日志，自定义inputformat 完整版

网上找了很多材料都是写了部份代码的，今天在峰哥的帮助下实现了此功能。为何要设置此功能是由于 hive fields terminated by '||||' 不支持字符串导致将你的inputformat类打成jar包，如MyInputFormat.jar将MyInputFormat.jar放到 hive/lib里，然后就可以建表了假设你的inputFormat类路

2013-01-23 13:20:37 7941

转载 HIVE Schema Design 模式设计

Table-by-Dayhive> CREATE TABLE supply_2011_01_02 (id int, part string, quantity int);hive> CREATE TABLE supply_2011_01_03 (id int, part string, quantity int);hive> CREATE TABLE supply_2011_0

2013-01-22 21:15:33 3332

转载 HIVE Indexex 索引

Creating an Index -- 创建一个索引CREATE TABLE employees ( name STRING, salary FLOAT, subordinates ARRAY, deductions MAP, address STRUCT)PARTITIONED BY (country STRING,

2013-01-22 21:10:42 3336

转载 HIVE VIEW 视图

Views to Reduce Query Complexity -- 视图减少复杂查询FROM ( SELECT * FROM people JOIN cart ON (cart.people_id=people.id) WHERE firstname='john') a SELECT a.lastname WHERE a.id=3;CREATE VIEW shor

2013-01-22 20:56:08 15381

转载 HIVE Queryes 查询

SELECT … FROM Clauseshive> SELECT name, salary FROM employees;表别名hive> SELECT name, salary FROM employees;hive> SELECT e.name, e.salary FROM employees e;Specify Columns

2013-01-21 22:00:17 11932

转载 HIVE 数据操作 DML

Loading Data into Managed Tables -- 加载数据到表LOAD DATA LOCAL INPATH '${env:HOME}/california-employees'OVERWRITE INTO TABLE employeesPARTITION (country = 'US', state = 'CA');LOAD DATA LOCAL ... co

2013-01-20 22:35:17 2902

转载 HIVE 数据定义 DDL

Databases in Hive -- 在HIVE 中使用数据库Hive offers no support for row-level inserts, updates, and deletes.Hive doesn’t support transactions. Hive adds ex-tensions to providebetter performance i

2013-01-20 19:40:12 11612

转载 Hive 数据类型文件格式

Primitive Data Types --Hive 支持数据类型Hive supports several sizes of integer and floating-point types, a Boolean type, andcharacter strings of arbitrary length. Hive v0.8.0 added types for timesta

2013-01-19 21:37:22 4559

转载 Hive CLI

Variables and Properties -- 设置 hive 变量$ hive --define foo=barhive> set foo;foo=bar;hive> set hivevar:foo;hivevar:foo=bar;hive> set hivevar:foo=bar2;hive> set foo;foo=bar2hive> cre

2013-01-19 20:34:09 3515 1

转载 HIVE 查询显示列名及行转列显示

hive默认查询不会显示列名，当一个表字段比较多的时候，往往看不出值与列之间的对应关系，对日常查错及定位问题带来不便，应同事要求，看了HIVE CLI源码，做了下些许调整，加入列头打印及行转列显示功能未开启行转列功能之前:hive>>> select * from example_table where dt='2012-03-31-02' limit 2;OK13331331

2013-01-17 22:45:10 29531 1

转载 HIVE 随谈（hive操作create，alter等）

Hive 的官方文档中对查询语言有了很详细的描述，请参考：http://wiki.apache.org/hadoop/Hive/LanguageManual ，本文的内容大部分翻译自该页面，期间加入了一些在使用过程中需要注意到的事项。Create TableCREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name dat

2013-01-17 22:43:10 18360

转载 HIVE 基本语法

DDL Operations 创建表 hive> CREATE TABLE pokes (foo INT, bar STRING); 创建表并创建索引字段ds hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 显示所有表 hive> SHOW TABLES; 按正条件

2013-01-17 22:39:44 2450

转载 HIVE sql 学习笔记(1)

一、创建表在官方的wiki里，example是这样的：Sql代码CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIO

2013-01-17 22:31:17 1110

转载 Linux给用户添加sudo权限

linux给用户添加sudo权限：有时候，linux下面运行sudo命令，会提示类似：xxxis not in the sudoers file. This incident will be reported.这里，xxx是用户名称，然后导致无法执行sudo命令，这时候，如下解决：进入超级用户模式。也就是输入"su -",系统会让你输入超级用户密码，输入密码后就进入了

2013-01-15 23:31:06 691

转载 CentOS 安装 hadoop(伪分布模式)

在本机上装的CentOS 5.5 虚拟机，软件准备：jdk 1.6 U26 hadoop:hadoop-0.20.203.tar.gzssh检查配置 Linux代码 [root@localhost ~]# ssh-keygen -t rsa Generating public/private rsa key pair.

2013-01-15 22:31:41 1803

转载 CentOs vsftp

Centos 6 配置 vsftp 同时使用本地用户和虚拟用户一、安装vsftp1.安装Vsftpd服务相关部件yum install vsftpd*2.确认安装PAM服务相关部件yum install pam*3.安装DB4部件包安装一个db4的包，用来支持文件数据库。yum install db4*二、配置vsftp1.修改/etc/vsftpd/vsf

2013-01-15 13:29:19 599

转载 putty 自动登录

用 PuTTYgen 来生成密钥，以后可以不用密码登录服务器了PuTTYgen 是密钥生成器，用来生成一对公钥和私钥供 PuTTY、PSCP、Plink、Pagent 来使用。直接运行 PuTTYgen 可以看到如下的界面。点击 Generate 按钮就开始生成一个公钥和私钥对，生成完毕后，点下面的 Save private key 就可以把私钥保存起来，扩展名是

2013-01-14 21:57:00 695

转载 linux 下 ifcfg-eth0 配置

网络接口配置文件[root@localhost ~]# cat /etc/sysconfig/network-scripts/ifcfg-eth0# Intel Corporation 82545EM Gigabit Ethernet Controller (Copper)TYPE=Ethernet #网卡类型DEVICE=eth0 #网卡接口名称O

2013-01-12 22:50:48 584

数据库——数据挖掘概念与技术

SQL2005 新增特性

空空如也