自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 hbase rowkey设计

hbase的设计:1.每一行数据必定是给某一个应用所使用的.即有一个appkey 如 942382.rowkey 就应该是这样了concat_ws('\u0004' --使用 \u0004 作为每个字段分隔符,concat(substr(md5(concat('app_name','94238')),1,4),':md5') --使用md5打散不同app的存放位置 ,'app...

2015-11-26 16:29:26 175

原创 转:hive表Join的倾斜问题以及解决方法

写HQL语句的时候常常会遇到表Join的情况,一个简单的Join会被Hive解释成一个MapReduce任务,Map端分别读取两个表的数据,Reduce做真正的Join操作。如果执行的过程中,如果发现有些Reduce任务比其他的Reduce任务慢很多,往往是发生了倾斜问题。问题分析 select a.*, b.cat_namefrom dim_...

2015-05-25 10:24:38 148

原创 hbase 扫盲和 kv 设计

hbase 不像传统数据库.区别主要是 orcl 里面 建表 要指定多少列,数据类型 等.hbase 里面 也有建表的概念,但是只不过定义了一个表名,里面的列是不定义的.任何数据都可以往表里面塞,换句话,如果我忘记了 塞了什么,都没地方去查.这样会导致表会无限膨胀,而且没人指定表里面有什么.所以nosql数据库 都设置了生命周期, 多少时间自动回收空间.那么塞进去的,要取出来就只能靠rowkey...

2014-12-15 10:55:17 1049

Hive 压缩比较

 set hive.exec.compress.intermediate=false;set mapred.output.compress=false;create table a as select * from dimdate;Table default.a stats: [numFiles=1, numRows=1188, totalSize=90068, rawDat...

2014-05-21 11:10:17 162

原创 Enhanced Aggregation, Cube, Grouping and Rollup 优化聚合函数

  翻译自 https://cwiki.apache.org/confluence/display/Hive/Enhanced+Aggregation%2C+Cube%2C+Grouping+and+Rollup这篇文章是用来描述优化集合函数 group by 的, 这些函数是0.10版本以后才被添加进hive的,并且在0.11中做了优化。GROUPING SETS clause (G...

2014-05-16 11:08:53 153

原创 Statistics in Hive (hive的统计信息搜集) 翻译

原文 https://cwiki.apache.org/confluence/display/Hive/StatsDev hive的统计信息搜集动机范围执行用法变量配置全新的表现有的表例子Motivation 动机统计信息,例如一个表有多少行,多少个分区,列的直方图等重要的信息。统计信息的关键作用是查询优化。把统计信息作为输入,通过成本优...

2014-05-13 21:49:13 1281

原创 ORC File 翻译

转帖翻译 http://www.iteblog.com/archives/1014原文 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC一、定义  ORC File,它的全名是Optimized Row Columnar (ORC) file,其实就是对RCFile做了一些优化。据官方文档介绍,这种...

2014-04-22 16:30:51 360

原创 sqoop 1.4.4 使用3

这次使用 压缩,因为压不压相差10倍呢,但是不使用 sequencefile ,因为打算在hive 中使用 RCFIle来存数据,--compress--compression-codec org.apache.hadoop.io.compress.BZip2Codec 使用的Bzip当然hive的表也自动存为Bzip的. 但是 如果hive 使用RCFile 存储...

2014-04-03 08:50:10 75

原创 Hive Join 优化 翻译

翻译自 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+JoinOptimization#LanguageManualJoinOptimization-AutoConversiontoSMBMapJoin目录结构Join Optimization ----Join 调优 Improvements to th...

2014-04-02 22:10:19 366

原创 Hive 的join

直接就总结了 1. join 中不能包含不等的操作( 大于,小于,不等) select * from a inner join bon a.a>b.a2.Join 中也不能有 OR 这种谓词 3.小表在前,大表在后4.但是也可以颠倒,但是要用 STREAMTABLE来指定那个是大表SELECT /*+ STREAMTABLE(a) */ a.v...

2014-04-01 16:02:04 220

原创 sqoop 1.4.4 使用2

如果数据库类型是 date类型的就比较麻烦了,直接搞进hive 不行,因为hive只有timestamp,而去format还是  yyyy-mm-dd hh:mm:ss的有2个办法,先导入临时表 ,临时表是string的类型(String的format是 yyyy-mm-dd),然后再往正式表里插insert overwrite table adventureworksdw.dimda...

2014-03-26 15:19:38 84

原创 sqoop 1.4.4 使用1

1.修改配置   /home/sqoop-1.4.4/conf/sqoop-env.shexport HADOOP_COMMON_HOME=/home/hadoop-2.3.0export HADOOP_MAPRED_HOME=/home/hadoop-2.3.0#export HBASE_HOME=/usr/local/hbaseexport HIVE_HOME=/home/...

2014-03-26 14:48:56 118

原创 Sqoop 1.99.3 with hadoop-2.3.0 使用 3

使用压缩来看看 sqoop:000> update job --jid 1Compression format:  0 : NONE  1 : DEFAULT  2 : DEFLATE  3 : GZIP  4 : BZIP2  5 : LZO  6 : LZ4  7 : SNAPPYChoose: 3Output directory:...

2014-03-20 16:46:02 91

原创 Sqoop 1.99.3 with hadoop-2.3.0 使用 2

连接建好 就开始建Job了sqoop:000> create job --xid 1 --type importCreating job for connection with id 1Please fill following values to create new job objectName: dimDate Database configuration...

2014-03-20 15:33:57 105

原创 Sqoop 1.99.3 with hadoop-2.3.0 使用1

使用 sqoop-1.99.3-bin-hadoop200 配置如下1.解压tar -xvf sqoop--bin-hadoop.tar.gz 2.加入配置文件 server/conf/catalina.properties 中的common.loader 属性加入hadoop2的lib因为hadoop_home 下的lib是空的 所以指向 /home/hadoop-2.3.0/share/h...

2014-03-19 16:54:58 157

原创 BO 4.0 报表 中文,打印 及 条形码

这几天有个3周code 的BO 项目. 要求打印条码. 是个国内的项目.. 但是server是win server 英文版的. BO的wibi 打印主要用PDF 打印.所以字体可以用 默认的 Simsun 一般的中国字都打得出来.  图片打印的问题.BO url link 的图片打印都是不行的.. 所以 只能用背景图片的打印. 这意味着 不能动态的打印图片. 对...

2013-09-22 17:28:28 166

原创 Oracle 临时表

oracle 和 td的 temp table 不一样.seesion 断了 , 表结构还在, 只是数据没了 oracle 分2中 session 级别 和 事务级别 seesion的 就是 会话断了 ,数据就没了 事务级别的. 就是 如果 用了 commit 或者 rollback,  数据也会没. 适合 在一个脚本中重复用到同一个临时表但是需要清空数据的情况...

2013-08-20 11:47:54 111

原创 Oracle 分区,索引,测试 (2)

这次做 select 操作每张表都是1亿三个表的索引都disable了先测试压缩--sales_data 有位图不适合alter table sales_data1 compress;---查看SELECT table_name, partition_name, compression FROM user_tab_partitions;SELECT t...

2013-08-15 16:01:41 173

原创 Oracle 分区,索引,测试 (1)

 -----本次只做插入.看看怎么插入速度快  准备工作--数据文件alter system set db_create_file_dest='d:\toby\oracle\data';--表空间create tablespace ts_sales_200901 datafile size 5M autoextend on ;create tablespace ...

2013-08-14 16:03:56 87

原创 HIVE JDBC

第一步 要开 HIVE server //jdbc 端口hive --service hiveserver//web 端口hive --service hwi//如果后台运行 就应该加nohup hive --service hiveservernohup hive --service hwi//后台后 要kill的话 只能 用 kill...

2013-07-08 17:38:21 423

原创 CYGWIN SSH domain login

使用域帐户登录 ,参考 https://www.ibm.com/developerworks/community/wikis/home?lang=en#!/wiki/Tivoli%20Application%20Dependency%20Discovery%20Manager/page/Setting%20up%20a%20Cygwin%20OpenSSH%20Server%20for%20W...

2013-05-20 11:27:08 186

原创 Hive 配置

下载hive 现在的版本是0.10, 打算是吧元数据存在mysql 里面的.1.设置 hive_home 环境2.在 /hive_home/conf 下 添加配置文件 <configuration><property> <name>hive.metastore.local</name> ...

2013-04-22 16:32:02 100

原创 hadoop WordCount 运行

配好Eclipse 就去 http://hadoop.apache.org/docs/r1.0.4/mapred_tutorial.html抄了段代码.Example: WordCount v1.0然后 Eclipse 跑一下.在参数设置 input 和outputhdfs://10.221.62.68:9000/tmp/hadoop-oracli/inputhdfs:...

2013-04-02 16:26:26 91

原创 hadoop 环境

 1. 下载 hadoop 1.1.2 ...  2. 参考 http://hadoop.apache.org/docs/r1.1.2/single_node_setup.html  安装 伪分布节点.遇到各种狗血问题.(服务器启动看 log)1)端口被占了,没root 权限 不能看进程号,也不能kill ... 只有改端口.hdfs-site.xml  &lt...

2013-04-01 17:19:06 78

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除