2015年06月_DataGPT

10月 09月 08月 07月 06月 05月 03月 02月

转载 Hive:ORC File Format存储格式详解

在Hive中，我们应该都听过RCFile这种格式吧，关于这种文件格式的结构什么的我就不介绍了，感兴趣的可以去网上找找。今天这篇文章要说的主题是ORC File。一、定义　　ORC File，它的全名是Optimized Row Columnar (ORC) file，其实就是对RCFile做了一些优化。据官方文档介绍，这种文件格式可以提供一种高效的方法来存储Hive数据。它的设计目

2015-06-28 23:07:24 2955

转载基于Hive 的文件格式：RCFile 简介及其应用

目录[-]1、hadoop 文件格式简介（1）SequenceFile（2）RCFile（3）Avro（4）文本格式（5）外部格式2、为什么需要 RCFile3、RCFile 简介4、超越RCFile，下一步采用什么方法5、如何生成 RCFile 文件（1）hive 中直接通过textfile表进行insert转换（2）通过 mapreduc

2015-06-28 23:02:50 1526

原创 Hive中将查询结果导出到指定分隔符的文件中

在Hive0.11.0版本中新引进了一个新的特性，当用户将Hive查询结果输出到文件中时，用户可以指定列的分割符，而在之前的版本是不能指定列之间的分隔符。在Hive0.11.0之前版本如下使用，无法指定分隔符，默认为\x01：hive (hive)> insertoverwrite local directory '/home/hadoop/export_hive' select * fr

2015-06-27 18:47:25 9600

原创 Hive索引

1、 Hive索引概述Hive的索引目的是提高Hive表指定列的查询速度。没有索引时，类似'WHERE tab1.col1 = 10' 的查询，Hive会加载整张表或分区，然后处理所有的rows，但是如果在字段col1上面存在索引时，那么只会加载和处理文件的一部分。与其他传统数据库一样，增加索引在提升查询速度时，会消耗额外资源去创建索引和需要更多的磁盘空间存储索引。H

2015-06-27 17:23:14 2562 4

原创 HBase无法连接ZooKeeper问题

上次搭建HBase环境后，执行登陆服务器时，报下面的错误：hadoop@gpmaster logs]$ hbase shellSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/home/hadoop/hbase-1.0.1.1/lib/slf4j-log4j12-1

2015-06-25 23:07:27 6587

转载 hive partition

partition是hive提供的一种机制：用户通过指定一个或多个partition key，决定数据存放方式，进而优化数据的查询一个表可以指定多个partition key，每个partition在hive中以文件夹的形式存在。实例（static partition）：编辑文件：/home/work/data/test3.txt; /home/work/data/test4.tx

2015-06-23 22:25:09 732

原创 Hive merge（小文件合并）

当Hive的输入由很多个小文件组成时，如果不涉及文件合并的话，那么每个小文件都会启动一个map task。如果文件过小，以至于map任务启动和初始化的时间大于逻辑处理的时间，会造成资源浪费，甚至发生OutOfMemoryError错误。因此，当我们启动一个任务时，如果发现输入数据量小但任务数量多时，需要注意在Map前端进行输入小文件合并操作。同理，向一个表写数据时，注意观察reduce

2015-06-23 22:21:05 5048

原创 SHELL编程学习笔记

SHELL编程学习笔记本文描述unix shell的各种应用实例，根据查阅资料和自我总结，作为自己今后复习的模板。本文搜集整理常用的shell应用实例，以例子详述unixshell部分命令的使用，着重于正则表达式以及grep、sed、awk等命令，涵盖业务开发中需要使用到的unix shell编程命令，供查阅或者自测使用，面向已经熟悉UNIX基本操作的开发人员。注：

2015-06-23 20:42:47 1813

原创 Hive中实现增量更新

保险公司有一个表记录客户的信息，其中包括有客户的id，name和age(为了演示只列出这几个字段)。创建Hive的表:create table customer(id int,age tinyint,name string)partitioned by(dt string)row format delimitedfields terminated by '|

2015-06-22 22:18:06 9093 3

原创 Hive数据去重

insert overwrite table log select t.p_key,t.sort_word from ( select p_key, sort_word , row_number() over(distribute by p_key sort by sort_word) as rn

2015-06-22 21:18:52 1326

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的

2015-06-22 10:37:18 734

原创 Improvements to the Hive Optimizer

LanguageManual JoinOptimizationImprovementsto the Hive OptimizerHive可以自动优化，在Hive 0.11里面改进了一些优化用例1、 JOIN的一边适合放在内存，有新的优化方案a) 把表按照hash表的形式读进内存b) 只扫描大表c) fact表只使用少量内存2、星型

2015-06-21 23:02:50 1329

转载数据仓库工作总结（觉得有点意思）

1. 概述本文作为我这些年实施数据仓库的总结，如有错误，请各位同仁指正。文档条理不是很清楚，而且也有很多口水话，我不想搞成一个真正的官方文档，所以很随意，符合我的性格。很多问题我只是提出来了，解决方案没有想好，也不知道怎么落到文字，就先提出来备注吧。文档原本想讨论的元数据管理、数据质量和监控工具的内容，由于时间关系，没有添加，以后有空补上吧。1.1.阅读方法

2015-06-21 16:48:16 6745

原创 Hadoop执行MR Job的基本过程

Hive是基于Hadoop平台的，它提供了类似SQL一样的查询语言HQL。有了Hive，如果使用过SQL语言，并且不理解Hadoop MapReduce运行原理，也就无法通过编程来实现MR，但是你仍然可以很容易地编写出特定查询分析的HQL语句，通过使用类似SQL的语法，将HQL查询语句提交Hive系统执行查询分析，最终Hive会帮你转换成底层Hadoop能够理解的MR Job。对于最基本的HQ

2015-06-21 15:15:43 2992

原创 Hive Join

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+JoinsLanguageManualJoinsJoin SyntaxHive支持下面的表join语法结构：join_table: table_reference JOIN table_factor[join_condition] | ta

2015-06-21 12:36:26 1914

转载 Bigtable: A Distributed Storage Systemfor Structured Data

关键字Bigtable GFS 分布式数据库 == 目标问题 ==高性能，高可靠性，可扩展的数据库，用于服务Google以搜索引擎，Earth为代表的产品的数据存储需求 == 核心思想 == Bigtable的核心数据模型是一个稀疏的多维Map数据结构，以 (行-row, 列-column, 时间戳-timestamp)为索引，在每个

2015-06-11 09:33:39 1898

原创使用Hive的正则解析器RegexSerDe分析nginx日志

1、环境：hadoop-2.6.0 + apache-hive-1.2.0-bin2、使用Hive分析nginx日志，网站的访问日志部分内容为：cat /home/hadoop/hivetestdata/nginx.txt192.168.1.128 - - [09/Jan/2015:12:38:08 +0800] "GET /avatar/helloworld.png

2015-06-09 18:01:34 2082