- 博客(17)
- 资源 (11)
- 收藏
- 关注
转载 Hive:ORC File Format存储格式详解
在Hive中,我们应该都听过RCFile这种格式吧,关于这种文件格式的结构什么的我就不介绍了,感兴趣的可以去网上找找。今天这篇文章要说的主题是ORC File。一、定义 ORC File,它的全名是Optimized Row Columnar (ORC) file,其实就是对RCFile做了一些优化。据官方文档介绍,这种文件格式可以提供一种高效的方法来存储Hive数据。它的设计目
2015-06-28 23:07:24 2955
转载 基于Hive 的文件格式:RCFile 简介及其应用
目录[-]1、hadoop 文件格式简介(1)SequenceFile(2)RCFile(3)Avro(4)文本格式(5)外部格式2、为什么需要 RCFile3、RCFile 简介4、超越RCFile,下一步采用什么方法5、如何生成 RCFile 文件(1)hive 中直接通过textfile表进行insert转换(2)通过 mapreduc
2015-06-28 23:02:50 1526
原创 Hive中将查询结果导出到指定分隔符的文件中
在Hive0.11.0版本中新引进了一个新的特性,当用户将Hive查询结果输出到文件中时,用户可以指定列的分割符,而在之前的版本是不能指定列之间的分隔符。在Hive0.11.0之前版本如下使用,无法指定分隔符,默认为\x01:hive (hive)> insertoverwrite local directory '/home/hadoop/export_hive' select * fr
2015-06-27 18:47:25 9600
原创 Hive索引
1、 Hive索引概述Hive的索引目的是提高Hive表指定列的查询速度。没有索引时,类似'WHERE tab1.col1 = 10' 的查询,Hive会加载整张表或分区,然后处理所有的rows,但是如果在字段col1上面存在索引时,那么只会加载和处理文件的一部分。与其他传统数据库一样,增加索引在提升查询速度时,会消耗额外资源去创建索引和需要更多的磁盘空间存储索引。H
2015-06-27 17:23:14 2562 4
原创 HBase无法连接ZooKeeper问题
上次搭建HBase环境后,执行登陆服务器时,报下面的错误:hadoop@gpmaster logs]$ hbase shellSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/home/hadoop/hbase-1.0.1.1/lib/slf4j-log4j12-1
2015-06-25 23:07:27 6587
转载 hive partition
partition是hive提供的一种机制:用户通过指定一个或多个partition key,决定数据存放方式,进而优化数据的查询一个表可以指定多个partition key,每个partition在hive中以文件夹的形式存在。实例(static partition):编辑文件:/home/work/data/test3.txt; /home/work/data/test4.tx
2015-06-23 22:25:09 732
原创 Hive merge(小文件合并)
当Hive的输入由很多个小文件组成时,如果不涉及文件合并的话,那么每个小文件都会启动一个map task。如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至发生OutOfMemoryError错误。因此,当我们启动一个任务时,如果发现输入数据量小但任务数量多时,需要注意在Map前端进行输入小文件合并操作。同理,向一个表写数据时,注意观察reduce
2015-06-23 22:21:05 5048
原创 SHELL编程学习笔记
SHELL编程学习笔记 本文描述unix shell的各种应用实例,根据查阅资料和自我总结,作为自己今后复习的模板。本文搜集整理常用的shell应用实例,以例子详述unixshell部分命令的使用,着重于正则表达式以及grep、sed、awk等命令,涵盖业务开发中需要使用到的unix shell编程命令,供查阅或者自测使用,面向已经熟悉UNIX基本操作的开发人员。注:
2015-06-23 20:42:47 1813
原创 Hive中实现增量更新
保险公司有一个表记录客户的信息,其中包括有客户的id,name和age(为了演示只列出这几个字段)。创建Hive的表:create table customer(id int,age tinyint,name string)partitioned by(dt string)row format delimitedfields terminated by '|
2015-06-22 22:18:06 9093 3
原创 Hive数据去重
insert overwrite table log select t.p_key,t.sort_word from ( select p_key, sort_word , row_number() over(distribute by p_key sort by sort_word) as rn
2015-06-22 21:18:52 1326
转载 Hive 数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的
2015-06-22 10:37:18 734
原创 Improvements to the Hive Optimizer
LanguageManual JoinOptimizationImprovementsto the Hive OptimizerHive可以自动优化,在Hive 0.11里面改进了一些优化用例1、 JOIN的一边适合放在内存,有新的优化方案a) 把表按照hash表的形式读进内存b) 只扫描大表c) fact表只使用少量内存2、 星型
2015-06-21 23:02:50 1329
转载 数据仓库工作总结(觉得有点意思)
1. 概述本文作为我这些年实施数据仓库的总结,如有错误,请各位同仁指正。文档条理不是很清楚,而且也有很多口水话,我不想搞成一个真正的官方文档,所以很随意,符合我的性格。很多问题我只是提出来了,解决方案没有想好,也不知道怎么落到文字,就先提出来备注吧。文档原本想讨论的元数据管理、数据质量和监控工具的内容,由于时间关系,没有添加,以后有空补上吧。1.1.阅读方法
2015-06-21 16:48:16 6745
原创 Hadoop执行MR Job的基本过程
Hive是基于Hadoop平台的,它提供了类似SQL一样的查询语言HQL。有了Hive,如果使用过SQL语言,并且不理解Hadoop MapReduce运行原理,也就无法通过编程来实现MR,但是你仍然可以很容易地编写出特定查询分析的HQL语句,通过使用类似SQL的语法,将HQL查询语句提交Hive系统执行查询分析,最终Hive会帮你转换成底层Hadoop能够理解的MR Job。对于最基本的HQ
2015-06-21 15:15:43 2992
原创 Hive Join
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+JoinsLanguageManualJoinsJoin SyntaxHive支持下面的表join语法结构:join_table: table_reference JOIN table_factor[join_condition] | ta
2015-06-21 12:36:26 1914
转载 Bigtable: A Distributed Storage Systemfor Structured Data
关键字Bigtable GFS 分布式数据库 == 目标问题 ==高性能,高可靠性,可扩展的数据库,用于服务Google以搜索引擎,Earth为代表的产品的数据存储需求 == 核心思想 == Bigtable的核心数据模型是一个稀疏的多维Map数据结构,以 (行-row, 列-column, 时间戳-timestamp)为索引,在每个
2015-06-11 09:33:39 1898
原创 使用Hive的正则解析器RegexSerDe分析nginx日志
1、环境:hadoop-2.6.0 + apache-hive-1.2.0-bin2、使用Hive分析nginx日志,网站的访问日志部分内容为:cat /home/hadoop/hivetestdata/nginx.txt192.168.1.128 - - [09/Jan/2015:12:38:08 +0800] "GET /avatar/helloworld.png
2015-06-09 18:01:34 2082
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人