2013年07月_stevie

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

转载九月腾讯，创新工场，淘宝等公司最新面试三十题（第171-200题）

九月腾讯，创新工场，淘宝等公司最新面试三十题（第171-200题）引言曾记否，去年的10月份也同此刻一样，是找工作的高峰期，本博客便是最初由整理微软等公司面试题而发展而来的。如今，又即将迈入求职高峰期--10月份，所以，也不免关注了网上和我个人建的算法群Algorithms1-12群内朋友发布和讨论的最新面试题。特此整理，以飨诸位。至于答案，望诸位共同讨论与思考。

2013-07-31 16:01:17 860

原创 hive中的静态分区与动态分区

hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段，而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。下面的语句创建了一个简单的分区表：create table partition_test(member_id string,name string)partition

2013-07-13 22:49:40 976

原创 linux下安装JDK

1、软件下载 http://www.oracle.com/technetwork/java/javaee/downloads/java-ee-sdk-6u3-jdk-7u1-downloads-523391.html这里下载的是 jdk-7u5-linux-x64.rpm2、卸载原有的JDK[root@sg203 usr]# rpm -qa | grep jd

2013-07-12 23:43:38 744

原创 linux ssh无密码登录

使用一种被称为"公私钥"认证的方式来进行ssh登录. "公私钥"认证方式简单的解释:首先在客户端上创建一对公私钥（公钥文件：~/.ssh/id_rsa.pub；私钥文件：~/.ssh/id_rsa）然后把公钥放到服务器上（~/.ssh/authorized_keys）, 自己保留好私钥.在使用ssh登录时,ssh程序会发送私钥去和服务器上的公钥做匹配.如果匹配成功就可以登录了。步骤如下

2013-07-12 23:42:21 970

原创如何更改MySQL数据库的数据库名

mysql> use dinghao;mysql> select * from t1;+——+———–+| id | name |+——+———–+| 1 | 刘德华 | +——+———–+1 row in set (0.00 sec)mysql> show create table t1;+——-+

2013-07-11 22:59:39 1028

转载 Mysql初始化root密码和允许远程访问

mysql默认root用户没有密码，输入mysql –u root 进入mysql1、初始化root密码进入mysql数据库?1mysql>updateuser set password=PASSWORD(‘123456’)where User='root';2、允许mysql远程访问,可以使用以下

2013-07-11 15:52:34 2788

原创 mysql 数据类型转化

Mysql的 Cast和Convert函数Cast（value as type）； Convert（value ，type）；type不是都可以滴，可以转换的type如下：二进制,同带binary前缀的效果 : BINARY 字符型,可带参数 : CHAR() 日期 : DATE 时间: TIME 日期时间型 : DATETIME

2013-07-11 13:41:51 766

原创 concat,concat_ws.group_concat的使用方法

concat函数使用方法：CONCAT(str1,str2,…)返回结果为连接参数产生的字符串。如有任何一个参数为NULL ，则返回值为 NULL。注意：如果所有参数均为非二进制字符串，则结果为非二进制字符串。如果自变量中含有任一二进制字符串，则结果为一个二进制字符串。一个数字参数被转化为与之相等的二进制字符串格式；若要避免这种情况，可使用显式类型 cast,

2013-07-11 07:00:53 2937

转载文本数据导入HBASE

在将有定界符文本文件导入HBASE库中，需要将后面的定界符去掉，否则将导入失败。如下所示：[hadoop@hadoop1 bin]$ cat /tmp/emp.txt1,A,201304,2,B,201305,3,C,201306,4,D,201307,这个文件后面多了一个逗号。[hadoop@hadoop1 bin]$ hadoop fs -p

2013-07-10 14:39:42 4384

转载 hadoop 1.03 安装配置

环境：操作系统Centos 5.5 64-bit三台节点，计划部署分配如下： ip 主机名用途172.16.48.201 sg201 namenode 172.16.48.202 sg202 datanode172.16.48.203 sg203 datanode

2013-07-10 14:35:28 829

翻译 hive数据类型

翻译自 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types列类型Hive支持的数据类型如下:原生类型:TINYINTSMALLINTINTBIGINTBOOLEANFLOATDOUBLESTRINGBINARY (Hive 0.8.0以上才可用)TIMESTAMP (Hive 0.8.0以上

2013-07-09 11:02:18 2310

原创 HBASE SHELL 常用命令

说明：新版hbase取消了对HQL的支持，只能使用shell 命令：disable 'tableName' --disable表。注：修改表结构时，必须要先disable表。命令：enable 'tableName' --使表可用命令：drop 'tableName' --删除表 HBase基本命令下面我们再看看看HBase的一些基本操作命令，我列出了几个常用的

2013-07-09 10:20:27 867

原创 hadoop+hive+hbase的整合开发（配置加测试）

用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面的 hql查询.hive也即做数据仓库 1. 基于Hadoop+Hive架构对海量数据进行查询：http://blog.csdn.net/kunshan_shenbin/article/details/7105319 2. HBase 0.

2013-07-08 15:05:33 2552

原创 hive的插入操作

1.insert 语法格式为：基本的插入语法：INSERT OVERWRITE TABLE tablename [PARTITON(partcol1=val1,partclo2=val2)]select_statement FROM from_statementinsert overwrite table test_insert select * from test_table;

2013-07-08 14:35:28 2962

转载 HBase MapReduce实例分析

引言跟Hadoop的无缝集成使得使用MapReduce对HBase的数据进行分布式计算非常方便，本文将以前面的blog示例，介绍HBase下MapReduce开发要点。很好理解本文前提是你对Hadoop MapReduce有一定的了解，如果你是初次接触Hadoop MapReduce编程，可以参考http://qa.taobao.com/?p=10523 这篇文章来建立基本概念。HBase

2013-07-05 14:21:37 1230

原创 Hbase使用经验

有待修正一、存入数据类型Hbase里面，rowkey是按照字典序进行排序。存储的value值，当用filter进行数据筛选的时候，所用的比较算法也是字典序的。1、当存储的value值是float类型的时候，录入数据可以录入，但是读取出来的数据会存在问题会出问题例如：存入数据的代码：p = new Put(Bytes.toBytes(“66”));p.add(Bytes.

2013-07-02 09:16:36 2286

原创 hbase rowkey 设计(三维有序)

在用hbase的过程中，我们都知道，rowkey设计的好坏，是我们能最大发挥hbase的架构优势，也是我们是否正确理解hbase的一个关键点。闲话少说，进入正题。hbase所谓的三维有序存储的三维是指：rowkey（行主键），column key(columnFamily+qualifier)，timestamp(时间戳)三部分组成的三维有序存储。先说rowkey，我们知道row

2013-07-02 09:12:59 1550

原创 hbase之scan的rowkey问题

最近使用到hbase做存储，发现使用scan的时候，返回的rowkey并不是特别友好例如我insert的rowkey是 xyz_123_abc 调用KeyValue的getKeyString方法返回的String为 Java代码 kv\x00\x0Bxyz_123_abc\x02kvobj\x00\x00\x011\xD7\xB9\xDD\x1

2013-07-02 09:10:54 3709

转载基于HBASE的并行计算架构之rowkey设计篇

1.大数据在HBASE存储、计算以及查询的应用场景海量数据都是事务数据，事务数据都是在时间的基础上产生的。数据的业务时间可能会顺序产生，也可能不会顺序产生，比如某些事务发生在早上10点，但是在下午5点才结束闭并生成出来，这样的数据就会造成存储加载时的时间连续性。另外海量数据的挖掘后产生的是统计数据，统计数据也有时间属性，统计数据如果进行保存必须保证在统计计算之后数据尽量不再变化，如果统

2013-07-02 09:09:14 1068