自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

DataFlow范式

透过技术圈百态,体会世间冷暖,树立正确的技术观、人生观、价值观和世界观

  • 博客(17)
  • 资源 (11)
  • 收藏
  • 关注

转载 Hive:ORC File Format存储格式详解

在Hive中,我们应该都听过RCFile这种格式吧,关于这种文件格式的结构什么的我就不介绍了,感兴趣的可以去网上找找。今天这篇文章要说的主题是ORC File。一、定义  ORC File,它的全名是Optimized Row Columnar (ORC) file,其实就是对RCFile做了一些优化。据官方文档介绍,这种文件格式可以提供一种高效的方法来存储Hive数据。它的设计目

2015-06-28 23:07:24 2955

转载 基于Hive 的文件格式:RCFile 简介及其应用

目录[-]1、hadoop 文件格式简介(1)SequenceFile(2)RCFile(3)Avro(4)文本格式(5)外部格式2、为什么需要 RCFile3、RCFile 简介4、超越RCFile,下一步采用什么方法5、如何生成 RCFile 文件(1)hive 中直接通过textfile表进行insert转换(2)通过 mapreduc

2015-06-28 23:02:50 1526

原创 Hive中将查询结果导出到指定分隔符的文件中

在Hive0.11.0版本中新引进了一个新的特性,当用户将Hive查询结果输出到文件中时,用户可以指定列的分割符,而在之前的版本是不能指定列之间的分隔符。在Hive0.11.0之前版本如下使用,无法指定分隔符,默认为\x01:hive (hive)> insertoverwrite local directory '/home/hadoop/export_hive' select * fr

2015-06-27 18:47:25 9600

原创 Hive索引

1、        Hive索引概述Hive的索引目的是提高Hive表指定列的查询速度。没有索引时,类似'WHERE tab1.col1 = 10' 的查询,Hive会加载整张表或分区,然后处理所有的rows,但是如果在字段col1上面存在索引时,那么只会加载和处理文件的一部分。与其他传统数据库一样,增加索引在提升查询速度时,会消耗额外资源去创建索引和需要更多的磁盘空间存储索引。H

2015-06-27 17:23:14 2562 4

原创 HBase无法连接ZooKeeper问题

上次搭建HBase环境后,执行登陆服务器时,报下面的错误:hadoop@gpmaster logs]$ hbase shellSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/home/hadoop/hbase-1.0.1.1/lib/slf4j-log4j12-1

2015-06-25 23:07:27 6587

转载 hive partition

partition是hive提供的一种机制:用户通过指定一个或多个partition key,决定数据存放方式,进而优化数据的查询一个表可以指定多个partition key,每个partition在hive中以文件夹的形式存在。实例(static partition):编辑文件:/home/work/data/test3.txt; /home/work/data/test4.tx

2015-06-23 22:25:09 732

原创 Hive merge(小文件合并)

当Hive的输入由很多个小文件组成时,如果不涉及文件合并的话,那么每个小文件都会启动一个map task。如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至发生OutOfMemoryError错误。因此,当我们启动一个任务时,如果发现输入数据量小但任务数量多时,需要注意在Map前端进行输入小文件合并操作。同理,向一个表写数据时,注意观察reduce

2015-06-23 22:21:05 5048

原创 SHELL编程学习笔记

SHELL编程学习笔记       本文描述unix shell的各种应用实例,根据查阅资料和自我总结,作为自己今后复习的模板。本文搜集整理常用的shell应用实例,以例子详述unixshell部分命令的使用,着重于正则表达式以及grep、sed、awk等命令,涵盖业务开发中需要使用到的unix shell编程命令,供查阅或者自测使用,面向已经熟悉UNIX基本操作的开发人员。注:

2015-06-23 20:42:47 1813

原创 Hive中实现增量更新

保险公司有一个表记录客户的信息,其中包括有客户的id,name和age(为了演示只列出这几个字段)。创建Hive的表:create table customer(id int,age tinyint,name string)partitioned by(dt string)row format delimitedfields terminated by '|

2015-06-22 22:18:06 9093 3

原创 Hive数据去重

insert overwrite table log      select t.p_key,t.sort_word from         ( select p_key,               sort_word ,               row_number() over(distribute by p_key sort by sort_word) as rn  

2015-06-22 21:18:52 1326

转载 Hive 数据倾斜总结

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的

2015-06-22 10:37:18 734

原创 Improvements to the Hive Optimizer

LanguageManual JoinOptimizationImprovementsto the Hive OptimizerHive可以自动优化,在Hive 0.11里面改进了一些优化用例1、        JOIN的一边适合放在内存,有新的优化方案a)   把表按照hash表的形式读进内存b)  只扫描大表c)   fact表只使用少量内存2、        星型

2015-06-21 23:02:50 1329

转载 数据仓库工作总结(觉得有点意思)

1.   概述本文作为我这些年实施数据仓库的总结,如有错误,请各位同仁指正。文档条理不是很清楚,而且也有很多口水话,我不想搞成一个真正的官方文档,所以很随意,符合我的性格。很多问题我只是提出来了,解决方案没有想好,也不知道怎么落到文字,就先提出来备注吧。文档原本想讨论的元数据管理、数据质量和监控工具的内容,由于时间关系,没有添加,以后有空补上吧。1.1.阅读方法

2015-06-21 16:48:16 6745

原创 Hadoop执行MR Job的基本过程

Hive是基于Hadoop平台的,它提供了类似SQL一样的查询语言HQL。有了Hive,如果使用过SQL语言,并且不理解Hadoop MapReduce运行原理,也就无法通过编程来实现MR,但是你仍然可以很容易地编写出特定查询分析的HQL语句,通过使用类似SQL的语法,将HQL查询语句提交Hive系统执行查询分析,最终Hive会帮你转换成底层Hadoop能够理解的MR Job。对于最基本的HQ

2015-06-21 15:15:43 2992

原创 Hive Join

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+JoinsLanguageManualJoinsJoin SyntaxHive支持下面的表join语法结构:join_table:    table_reference JOIN table_factor[join_condition]  | ta

2015-06-21 12:36:26 1914

转载 Bigtable: A Distributed Storage Systemfor Structured Data

关键字Bigtable GFS 分布式数据库 == 目标问题 ==高性能,高可靠性,可扩展的数据库,用于服务Google以搜索引擎,Earth为代表的产品的数据存储需求 == 核心思想 == Bigtable的核心数据模型是一个稀疏的多维Map数据结构,以 (行-row, 列-column, 时间戳-timestamp)为索引,在每个

2015-06-11 09:33:39 1898

原创 使用Hive的正则解析器RegexSerDe分析nginx日志

1、环境:hadoop-2.6.0 + apache-hive-1.2.0-bin2、使用Hive分析nginx日志,网站的访问日志部分内容为:cat /home/hadoop/hivetestdata/nginx.txt192.168.1.128 - - [09/Jan/2015:12:38:08 +0800] "GET /avatar/helloworld.png

2015-06-09 18:01:34 2082

ERWin建模软件

2014年6月13号下载的ERWin建模软件

2014-06-13

eclipse.006

eclipse-jee-kepler-SR2-win32.zip.006

2014-05-11

eclipse.003

eclipse-jee-kepler-SR2-win32.zip

2014-05-11

eclipse-jee-kepler-SR2-win32.zip.002

eclipse-jee-kepler-SR2-win32.zip.002

2014-05-11

eclipse-jee-kepler-SR2-win32

eclipse-jee-kepler-SR2-win32 软件包

2014-05-11

Unix shell

Unix Shell 非常好的资料 jiangshouzhuang is a good boy!

2012-08-01

mysql的安装

mysql在多操作系统上面的的安装过程以及一些知识的介绍,

2012-07-04

wxpython python开发图形界面

wxpython python开发图形界面

2012-05-29

学习wxpython开发图形界面

wxpython 学习wxpython开发图形界面

2012-05-29

Shell.Scripts-101.Scripts.for.Linux

Linux shell for everyone

2012-05-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除