parquet列存储

why? 1,同一列数据的类型和“材质”是一致的,所以压缩起来更节省空间 2,在按列检索需求下,无需读取整行记录,I/O降低 3,当每一列类型相同时,通过编码能够更好的适应现代处理器分支指令集预测优化 message example as follow message Addres...

2015-04-30 21:30:32

阅读数:544

评论数:0

CSV数据导入Parquet表

1,执行sql获取csv文件 select * from ad.click where month = 201412 and referralpage like 'http://weibo.com%' 2,将csv文件上传到服务器local: /home/maoxiao/ad_w...

2015-04-30 21:14:53

阅读数:2293

评论数:0

solr-phoenix

1 , phoenix配置文档+demo-crud程序 2 , solr索引原理(一次性建立还是每次都建立,对值) 将HBase表中涉及条件过滤的字段和rowkey在Solr中建立索引,通过Solr的多条件查询快速获得符合过滤条件的rowkey值,拿到这些rowkey之后在HBASE中通过指定...

2015-04-30 21:02:34

阅读数:1000

评论数:0

hive over hbase方式将数据导出

CREATE EXTERNAL TABLE userData(rowkey string,UserId String, ProfileId int,ClientTimeHourPart int,ClientTimeDayOfWeekPart String,ServerTime String,Cou...

2015-04-30 20:57:02

阅读数:406

评论数:0

hive over hbase方式将文本库数据导入hbase

1,创建hbase表Corpus >> create 'Corpus','CF' 2,创建hive->hbase外表logic_Corpus,并对应hbase中的Corpus表 >> CREATE EXTERNAL TABLE logic_Corpus ( ...

2015-04-30 20:55:01

阅读数:319

评论数:0

sqoop数据导出导入命令

1,修改/etc/profile文件 export PATH=/usr/local/mysql/bin:$PATH export PATH=/opt/cloudera/parcels/CDH-5.0.0-1.cdh5.0.0.p0.47/lib/sqoop/bin:$PATH 2,使用sqo...

2015-04-30 20:52:22

阅读数:1238

评论数:0

源代码分析二:创建HTable

一,创建HTable A,获取TableName对象,缓存(使用CopyOnWriteArraySet)TableName优化 1,缓存使用CopyOnWriteArraySet实现(为什么作者使用Set ?? 而非Map,从检索性能和操作便捷度上,Map优于set) 缓存作用代...

2015-04-26 14:40:21

阅读数:532

评论数:0

源代码分析一:创建HBaseConfiguration和HConnectionManager

一:从 val HBASE_CONF = HBaseConfiguration.create开始 创建HBaseConfiguration过程: A,新建Configuration对象 //loadDefaults默认为true public Configuration...

2015-04-26 14:37:50

阅读数:1874

评论数:0

hbase rowKey设计

1,高表VS宽表 首先明确一个前提:将横坐标理解为列,将纵坐标理解为行 高表:行多列少 宽表:行少列多 下面以邮件系统为例:   HBase只能按行分片,因为Region拆分基于rowkey,所以当用户的某一行数据量太大(超过了最大HFile的限制),此时这个Region无法拆分(后果...

2014-11-11 17:36:06

阅读数:841

评论数:0

hbase提交命令

java -cp ".:自己的JAR包的路径:`hbase classpath`" 你的MAIN类一堆参数…

2014-09-26 00:24:40

阅读数:353

评论数:0

hive命令将hbase数据导出到hive然后到本地

CREATE EXTERNAL TABLE userData(rowkey string,UserId String, ProfileId int,ClientTimeHourPart int,ClientTimeDayOfWeekPart String,ServerTime String,Cou...

2014-09-26 00:07:04

阅读数:1385

评论数:0

HBase-0.94新特性

性能相关 读缓存改进: HDFS 将图片和checksum存储在不同的block中的,所以每次我们进行读操作,都需要进行两次磁盘操作(一次读数据文件,一次读checksum所在的文件)。在 HBASE-5074 这个提案中,提出了将checksum存到block 缓存中的想法。在0.94...

2014-09-01 00:39:58

阅读数:480

评论数:0

为HBASE构建辅助索引

import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.hbase.HBaseConfiguration; import org....

2014-06-25 00:55:32

阅读数:970

评论数:1

HBaseClient

package com.gridsum.hbaseDemo; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.*; import org.apache.hadoop.hbase.client...

2014-06-23 17:33:30

阅读数:455

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭