- 博客(19)
- 资源 (20)
- 收藏
- 关注
转载 九月腾讯,创新工场,淘宝等公司最新面试三十题(第171-200题)
九月腾讯,创新工场,淘宝等公司最新面试三十题(第171-200题)引言 曾记否,去年的10月份也同此刻一样,是找工作的高峰期,本博客便是最初由整理微软等公司面试题而发展而来的。如今,又即将迈入求职高峰期--10月份,所以,也不免关注了网上和我个人建的算法群Algorithms1-12群内朋友发布和讨论的最新面试题。特此整理,以飨诸位。至于答案,望诸位共同讨论与思考。
2013-07-31 16:01:17 860
原创 hive中的静态分区与动态分区
hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。下面的语句创建了一个简单的分区表:create table partition_test(member_id string,name string)partition
2013-07-13 22:49:40 976
原创 linux下安装JDK
1、软件下载 http://www.oracle.com/technetwork/java/javaee/downloads/java-ee-sdk-6u3-jdk-7u1-downloads-523391.html这里下载的是 jdk-7u5-linux-x64.rpm2、卸载原有的JDK[root@sg203 usr]# rpm -qa | grep jd
2013-07-12 23:43:38 744
原创 linux ssh无密码登录
使用一种被称为"公私钥"认证的方式来进行ssh登录. "公私钥"认证方式简单的解释:首先在客户端上创建一对公私钥 (公钥文件:~/.ssh/id_rsa.pub; 私钥文件:~/.ssh/id_rsa)然后把公钥放到服务器上(~/.ssh/authorized_keys), 自己保留好私钥.在使用ssh登录时,ssh程序会发送私钥去和服务器上的公钥做匹配.如果匹配成功就可以登录了。步骤如下
2013-07-12 23:42:21 970
原创 如何更改MySQL数据库的数据库名
mysql> use dinghao;mysql> select * from t1;+——+———–+| id | name |+——+———–+| 1 | 刘德华 | +——+———–+1 row in set (0.00 sec)mysql> show create table t1;+——-+
2013-07-11 22:59:39 1028
转载 Mysql初始化root密码和允许远程访问
mysql默认root用户没有密码,输入mysql –u root 进入mysql1、初始化root密码进入mysql数据库?1mysql>updateuser set password=PASSWORD(‘123456’)where User='root';2、允许mysql远程访问,可以使用以下
2013-07-11 15:52:34 2788
原创 mysql 数据类型转化
Mysql的 Cast和Convert函数Cast(value as type); Convert(value ,type);type不是都可以滴,可以转换的type如下:二进制,同带binary前缀的效果 : BINARY 字符型,可带参数 : CHAR() 日期 : DATE 时间: TIME 日期时间型 : DATETIME
2013-07-11 13:41:51 766
原创 concat,concat_ws.group_concat的使用方法
concat函数使用方法:CONCAT(str1,str2,…)返回结果为连接参数产生的字符串。如有任何一个参数为NULL ,则返回值为 NULL。注意:如果所有参数均为非二进制字符串,则结果为非二进制字符串。 如果自变量中含有任一二进制字符串,则结果为一个二进制字符串。一个数字参数被转化为与之相等的二进制字符串格式;若要避免这种情况,可使用显式类型 cast,
2013-07-11 07:00:53 2937
转载 文本数据导入HBASE
在将有定界符文本文件导入HBASE库中,需要将后面的定界符去掉,否则将导入失败。如下所示:[hadoop@hadoop1 bin]$ cat /tmp/emp.txt1,A,201304,2,B,201305,3,C,201306,4,D,201307,这个文件后面多了一个逗号。[hadoop@hadoop1 bin]$ hadoop fs -p
2013-07-10 14:39:42 4384
转载 hadoop 1.03 安装配置
环境:操作系统Centos 5.5 64-bit三台节点,计划部署分配如下: ip 主机名 用途172.16.48.201 sg201 namenode 172.16.48.202 sg202 datanode172.16.48.203 sg203 datanode
2013-07-10 14:35:28 829
翻译 hive数据类型
翻译自 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types列类型Hive支持的数据类型如下:原生类型:TINYINTSMALLINTINTBIGINTBOOLEANFLOATDOUBLESTRINGBINARY (Hive 0.8.0以上才可用)TIMESTAMP (Hive 0.8.0以上
2013-07-09 11:02:18 2310
原创 HBASE SHELL 常用命令
说明:新版hbase取消了对HQL的支持,只能使用shell 命令:disable 'tableName' --disable表。注:修改表结构时,必须要先disable表。命令:enable 'tableName' --使表可用命令:drop 'tableName' --删除表 HBase基本命令下面我们再看看看HBase的一些基本操作命令,我列出了几个常用的
2013-07-09 10:20:27 867
原创 hadoop+hive+hbase的整合开发(配置加测试)
用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面 的 hql查询.hive也即 做数据仓库 1. 基于Hadoop+Hive架构对海量数据进行查询:http://blog.csdn.net/kunshan_shenbin/article/details/7105319 2. HBase 0.
2013-07-08 15:05:33 2552
原创 hive的插入操作
1.insert 语法格式为:基本的插入语法:INSERT OVERWRITE TABLE tablename [PARTITON(partcol1=val1,partclo2=val2)]select_statement FROM from_statementinsert overwrite table test_insert select * from test_table;
2013-07-08 14:35:28 2962
转载 HBase MapReduce实例分析
引言跟Hadoop的无缝集成使得使用MapReduce对HBase的数据进行分布式计算非常方便,本文将以前面的blog示例,介绍HBase下MapReduce开发要点。很好理解本文前提是你对Hadoop MapReduce有一定的了解,如果你是初次接触Hadoop MapReduce编程,可以参考http://qa.taobao.com/?p=10523 这篇文章来建立基本概念。HBase
2013-07-05 14:21:37 1230
原创 Hbase使用经验
有待修正一、存入数据类型Hbase里面,rowkey是按照字典序进行排序。存储的value值,当用filter进行数据筛选的时候,所用的比较算法也是字典序的。1、当存储的value值是float类型的时候,录入数据可以录入,但是读取出来的数据会存在问题会出问题例如:存入数据的代码:p = new Put(Bytes.toBytes(“66”));p.add(Bytes.
2013-07-02 09:16:36 2286
原创 hbase rowkey 设计(三维有序)
在用hbase的过程中,我们都知道,rowkey设计的好坏,是我们能最大发挥hbase的架构优势,也是我们是否正确理解hbase的一个关键点。闲话少说,进入正题。hbase所谓的三维有序存储的三维是指:rowkey(行主键),column key(columnFamily+qualifier),timestamp(时间戳)三部分组成的三维有序存储。先 说rowkey,我们知道row
2013-07-02 09:12:59 1550
原创 hbase之scan的rowkey问题
最近使用到hbase做存储,发现使用scan的时候,返回的rowkey并不是特别友好 例如我insert的rowkey是 xyz_123_abc 调用KeyValue的getKeyString方法返回的String为 Java代码 kv\x00\x0Bxyz_123_abc\x02kvobj\x00\x00\x011\xD7\xB9\xDD\x1
2013-07-02 09:10:54 3709
转载 基于HBASE的并行计算架构之rowkey设计篇
1.大数据在HBASE存储、计算以及查询的应用场景 海量数据都是事务数据,事务数据都是在时间的基础上产生的。数据的业务时间可能会顺序产生,也可能不会顺序产生,比如某些事务发生在早上10点,但是在下午5点才结束闭并生成出来,这样的数据就会造成存储加载时的时间连续性。另外海量数据的挖掘后产生的是统计数据,统计数据也有时间属性,统计数据如果进行保存必须保证在统计计算之后数据尽量不再变化,如果统
2013-07-02 09:09:14 1068
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人