自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(164)
  • 资源 (2)
  • 收藏
  • 关注

转载 Hbase shell 常用命令

下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录      put '表名称', '行名称', '列名称:', '值'查看记录

2013-04-05 23:34:52 898

转载 hbase安装配置(整合到hadoop)

hbase安装配置(整合到hadoop)  Huangguisu1.快速单机安装:在单机安装Hbase的方法。会引导你通过shell创建一个表,插入一行,然后删除它,最后停止Hbase。只要10分钟就可以完成以下的操作。1.1下载解压最新版本选择一个 Apache 下载镜像:http://www.apache.org/dyn/closer.cgi/hbase/,下载 HBase R

2013-04-05 23:19:40 1055

转载 HBase shell 简单使用

HBase提供了丰富的访问接口。  • HBase Shell  • Java clietn API  • Jython、Groovy DSL、Scala  • REST  • Thrift(Ruby、Python、Perl、C++…)  • MapReduce  • Hive/Pig其中HBase Shell是常用的便捷方式首先你需要一个HBase的环境,如果

2013-04-05 23:07:18 1028

转载 替换SQL字段中的换行符,回车符

替换SQL字段中的换行符,回车符:在富文本内容中通常会出现回车、换行内容。在sql数据库中这些回车、换行符,输出html后,表现为空格。这里是在数据导出、导入中发现的,通常把回车、换行符找出来,用替换。 这里使用了,sql 函数。replace(string_expression , string_pattern , string_replacement),第一个参数:要查找的字段

2013-03-29 13:02:19 6088

转载 KETTLE Configuring for Cloudera

To communicate with Cloudera, you must change which version of Hadoop to use when communicating with a Hadoop cluster.Within the file plugins/pentaho-big-data-plugin/plugin.properties, update th

2013-03-04 15:10:03 1235

转载 JAVA 对象序列化

对象序列化:就是将一个对象转换为二进制的数据流,如果一个类的对象要想实现对象序列化,则对象所在的类必须实现Serializable接口。在此接口中没有任何的方法,此接口只是作为 一个标识,表示本类的对象具备了序列化的能力而已。如果要想完成对象的序列化,则还要依靠ObjectOutputStream 类和 ObjectInputStream类,前者属于序列化操作,而后者属于反序列化操作

2013-02-10 00:18:46 851

转载 JAVA 字符编码

在程序中如果字符编码没有处理完整,则肯定会造成乱码,常见的编码有以下几种:UTF:包含了以下的编码ISO 8859-1:是包含全部的英文编码GBK/GBK2312:表示中文,GBK 表示简体中文和繁体中文、GB2312只表示简体中文如果程序中操作的编码与本地的环境编码不统一,那么操作的时候就有可能出现乱码。package org.encodedemo;public

2013-02-09 22:51:47 760

转载 JAVA Scanner 类

Scanner 是一个新的操作类,是在java.util 包中提供的一个操作类,使用此类可以方便的完成输入流的输入操作:package org.scannerdemo;import java.util.Scanner;public class ScannerDemo01 { /** * @param args */ @SuppressWarnings("resou

2013-02-09 22:39:31 4620

转载 Hadoop Hive与Hbase整合

用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面 的 hql查询.hive也即 做数据仓库1. 基于Hadoop+Hive架构对海量数据进行查询:http://blog.csdn.net/kunshan_shenbin/article/details/71053192. HBase

2013-02-05 21:00:44 1175

原创 HADOOP JAVA接口

从Hadoop URL 中读取数据package org.urlcat;import java.io.InputStream;import java.net.URL;import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;import org.apache.hadoop.io.IOUtils;public cla

2013-02-03 14:31:26 3531

转载 HIVE 通过 MYSQL 保存元数据

1.安装hadoop(1.0以上) 2.安装hive安装(0.9.0以上版本) 4.当然你还得安装jdk 4. mysql,同时准备个可访问的账号,这里采用root,最好配上远程访问权限。 修改hive下的conf文件夹中将 hive-default.xml.template 复制并改名成 hive-site.xml这里是我的文件 hive.metas

2013-02-03 13:14:27 1894

转载 Linux下chkconfig命令详解

chkconfig命令主要用来更新(启动或停止)和查询系统服务的运行级信息。谨记chkconfig不是立即自动禁止或激活一个服务,它只是简单的改变了符号连接。使用语法:chkconfig [--add][--del][--list][系统服务] 或 chkconfig [--level ][系统服务][on/off/reset]chkconfig在没有参数运行时,显示用法。如果加上服务

2013-02-03 00:07:05 631

转载 HIVE JDBC

一、Eclipse 导入 JAR包HIVE/LIB/*HADOOP/LIB/hadoop-core-1.1.1.jar二、启运HiveServerhive --service hiveserver 10000 &三、连接JAVA 测试代码package org.hivequery; import java.sql

2013-01-31 00:03:36 5105 1

转载 JAVA JDBC

JDBC, Java Database Connecive, Java 数据库连接,是一组专门负责连接并操作数据库的标准,在整个JDBC 中实际上大量的提供的是接口。针对于各个不同的数据库生产商 ,只要想使用JAVA 进行数据库的开发,则对这些标准有所支持。JDBC 在使用中常见的有以下三类:JDBC-ODBC 桥连接:是SUN 在JDK的开发包中提供的最标准的一套JDBC 操作类库,使用

2013-01-26 18:23:28 56276 6

原创 HIVE Row_Sequence 实现列自增长

package org.rowsequence;import org.apache.hadoop.hive.ql.exec.Description;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.hive.ql.udf.UDFType;import org.apache.hadoop.io.LongWr

2013-01-26 00:53:16 12520 6

转载 hive中使用自定义函数(UDF)实现分析函数row_number的功能

之前部门实现row_number是使用的transform,我觉得用UDF实现后,平时的使用会更方便,免去了transform相对繁琐的语法。   用到的测试表为:hive> desc row_number_test;OKid1    intid2    stringage    intscore   doublename   string hive> se

2013-01-26 00:30:27 5681

原创 HIVE 通过正则匹配 字段分列

通过 SerDe(serialize/deserialize) ,在数据序列化和反序列化时格式化数据。这种方式稍微复杂一点,对数据的控制能力也要弱一些,它使用正则表达式来匹配和处理数据,性能也会有所影响。但它的优点是可以自定义表属性信息 SERDEPROPERTIES ,在 SerDe 中通过这些属性信息可以有更多的定制行为。原数据类型:"abc"@_@123@_@

2013-01-25 17:36:31 11464

原创 HIVE 自定义函数 UDF

Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Java Integer/St

2013-01-24 21:54:46 4730

转载 HIVE 命令行

执行一个查询$HIVE_HOME/bin/hive -e 'select a.col from tab1 a'之后过程中,会在终端上显示mapreduce的进度,执行完毕后,最后把查询结果输出到终端上,接着hive进程退出,不会进入交互模式。 使用静音模式执行一个查询$HIVE_HOME/bin/hive -S -e 'select a.col from tab1

2013-01-23 22:11:13 24762

转载 HIVE 动态分区与静态分区

HIVE分区,实际上是通过一个路径来标识的,而不是在物理数据中。比如每天的数据,可能分区是pt=20121023这样,那么路径中它就会变成:/hdfs/path/pt=20121023/data_files。通过路径来标识的好处是,如果我们需要取特定分区的数据,只需要把这个路径下的数据取出来就可以了,不用扫描全部的数据。HIVE默认是静态分区。但是有时候可能需要动态创建不同的分区,比如商品

2013-01-23 21:55:22 8071

转载 HIVE 文件存储格式

hive在建表是,可以通过‘STORED AS FILE_FORMAT’ 指定存储文件格式例如:[plain] view plaincopy> CREATE EXTERNAL TABLE MYTEST(num INT, name STRING)  > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'  > STORED A

2013-01-23 21:38:52 1202

转载 HIVE RCFile高效存储结构(zz)

本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据

2013-01-23 15:02:28 945

原创 HIVE 处理日志,自定义inputformat 完整版

网上找了很多材料都是写了部份代码的,今天在峰哥的帮助下实现了此功能。为何要设置此功能是由于 hive fields terminated by '||||' 不支持 字符串导致将你的inputformat类打成jar包,如MyInputFormat.jar将MyInputFormat.jar放到 hive/lib里,然后就可以建表了假设你的inputFormat类路

2013-01-23 13:20:37 7704

转载 HIVE Schema Design 模式设计

Table-by-Dayhive> CREATE TABLE supply_2011_01_02 (id int, part string, quantity int);hive> CREATE TABLE supply_2011_01_03 (id int, part string, quantity int);hive> CREATE TABLE supply_2011_0

2013-01-22 21:15:33 3254

转载 HIVE Indexex 索引

Creating an Index -- 创建一个索引CREATE TABLE employees ( name STRING, salary FLOAT, subordinates ARRAY, deductions MAP, address STRUCT)PARTITIONED BY (country STRING,

2013-01-22 21:10:42 3198

转载 HIVE VIEW 视图

Views to Reduce Query Complexity -- 视图减少复杂查询FROM ( SELECT * FROM people JOIN cart ON (cart.people_id=people.id) WHERE firstname='john') a SELECT a.lastname WHERE a.id=3;CREATE VIEW shor

2013-01-22 20:56:08 15230

转载 HIVE Queryes 查询

SELECT … FROM Clauseshive> SELECT name, salary FROM employees;表别名hive> SELECT name, salary FROM employees;hive> SELECT e.name, e.salary FROM employees e;Specify Columns

2013-01-21 22:00:17 11769 1

转载 HIVE 数据操作 DML

Loading Data into Managed Tables -- 加载数据到表LOAD DATA LOCAL INPATH '${env:HOME}/california-employees'OVERWRITE INTO TABLE employeesPARTITION (country = 'US', state = 'CA');LOAD DATA LOCAL ... co

2013-01-20 22:35:17 2646

转载 HIVE 数据定义 DDL

Databases in Hive -- 在HIVE 中使用数据库Hive offers no support for row-level  inserts, updates, and deletes.Hive doesn’t support transactions. Hive adds ex-tensions to providebetter performance i

2013-01-20 19:40:12 11487

转载 Hive 数据类型 文件格式

Primitive Data Types --Hive 支持数据类型Hive supports several sizes of integer and floating-point types, a Boolean type, andcharacter strings of arbitrary length. Hive v0.8.0 added types for timesta

2013-01-19 21:37:22 4425

转载 Hive CLI

Variables and Properties -- 设置 hive 变量$ hive --define foo=barhive> set foo;foo=bar;hive> set hivevar:foo;hivevar:foo=bar;hive> set hivevar:foo=bar2;hive> set foo;foo=bar2hive> cre

2013-01-19 20:34:09 3362 1

转载 HIVE 查询显示列名 及 行转列显示

hive默认查询不会显示列名, 当一个表字段比较多的时候,往往看不出值与列之间的对应关系,对日常查错及定位问题带来不便,应同事要求,看了HIVE CLI源码,做了下些许调整, 加入列头打印及行转列显示功能未开启行转列功能之前:hive>>> select * from example_table where dt='2012-03-31-02' limit 2;OK13331331

2013-01-17 22:45:10 29238 1

转载 HIVE 随谈(hive操作create,alter等)

Hive 的官方文档中对查询语言有了很详细的描述,请参考:http://wiki.apache.org/hadoop/Hive/LanguageManual ,本文的内容大部分翻译自该页面,期间加入了一些在使用过程中需要注意到的事项。Create TableCREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name dat

2013-01-17 22:43:10 18196

转载 HIVE 基本语法

DDL Operations 创建表 hive> CREATE TABLE pokes (foo INT, bar STRING); 创建表并创建索引字段ds hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 显示所有表 hive> SHOW TABLES; 按正条件

2013-01-17 22:39:44 2348

转载 HIVE sql 学习笔记(1)

一、 创建表     在官方的wiki里,example是这样的:Sql代码CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name     [(col_name data_type [COMMENT col_comment], ...)]     [COMMENT table_comment]     [PARTITIO

2013-01-17 22:31:17 1011

转载 Linux给用户添加sudo权限

linux给用户添加sudo权限:有时候,linux下面运行sudo命令,会提示类似:xxxis not in the sudoers file.  This incident will be reported.这里,xxx是用户名称,然后导致无法执行sudo命令,这时候,如下解决:    进入超级用户模式。也就是输入"su -",系统会让你输入超级用户密码,输入密码后就进入了

2013-01-15 23:31:06 608

转载 CentOS 安装 hadoop(伪分布模式)

在本机上装的CentOS 5.5 虚拟机,      软件准备:jdk 1.6 U26      hadoop:hadoop-0.20.203.tar.gzssh检查配置 Linux代码  [root@localhost ~]# ssh-keygen -t  rsa  Generating public/private rsa key pair.

2013-01-15 22:31:41 1625

转载 CentOs vsftp

Centos 6 配置 vsftp 同时使用本地用户和虚拟用户一、安装vsftp1.安装Vsftpd服务相关部件yum install vsftpd*2.确认安装PAM服务相关部件yum install pam*3.安装DB4部件包安装一个db4的包,用来支持文件数据库。yum install db4*二、配置vsftp1.修改/etc/vsftpd/vsf

2013-01-15 13:29:19 502

转载 putty 自动登录

用 PuTTYgen 来生成密钥,以后可以不用密码登录服务器了PuTTYgen 是密钥生成器,用来生成一对公钥和私钥供 PuTTY、PSCP、Plink、Pagent 来使用。直接运行 PuTTYgen 可以看到如下的界面。点击 Generate 按钮就开始生成一个公钥和私钥对,生成完毕后,点下面的 Save private key 就可以把私钥保存起来,扩展名是

2013-01-14 21:57:00 562

转载 linux 下 ifcfg-eth0 配置

网络接口配置文件[root@localhost ~]# cat /etc/sysconfig/network-scripts/ifcfg-eth0# Intel Corporation 82545EM Gigabit Ethernet Controller (Copper)TYPE=Ethernet       #网卡类型DEVICE=eth0         #网卡接口名称O

2013-01-12 22:50:48 492

数据库——数据挖掘概念与技术

数据挖掘概念与技术 关于数据挖掘方面 如何获得更多可用数据。

2011-05-09

SQL2005 新增特性

在当今的互联世界中,数据和管理数据的系统必须始终为用户可用且能够确保安全。有了 SQL Server 2005,组织内的用户和信息技术 (IT) 专家将从减少的应用程序停机时间、提高的可伸缩性及性能、更紧密而灵活的安全控制中获益。SQL Server 2005 也包括了许多新的和改进的功能来帮助 IT 工作人员更有效率地工作。SQL Server 2005 包含几个在企业数据管理中关键的增强

2008-10-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除