自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 hive数据的导出

在本博客的《Hive几种数据导入方式》文章中,谈到了Hive中几种数据的导入方式,不同的数据导入方式用途不一样。今天我们再谈谈Hive中的几种不同的数据导出方式。可以根据导出的地方不一样,将这些方式分为三种:(1)、导出到本地文件系统;(2)、导出到HDFS中;(3)、导出到Hive的另一个表中。为了避免单纯的文字,我将一步一步地用命令进行说明。  一、导出到本地文件系统  h...

2014-07-28 21:53:23 110

原创 hive udaf

package com.lwz.udaf;import org.apache.hadoop.hive.ql.exec.UDAF;import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;//1.此函数区分一条记录的方法,如果没有group by和where的检索,那么整个表的数据都会被作为一条数据,从而只会init()一次//然后再...

2014-07-25 16:11:20 128

原创 hbase scan问题

1.通过scan取完数据后,记得要关闭ResultScanner,否则RegionServer可能会出现问题 2.scan时指定需要的Column Family,可以减少网络传输数据量,否则默认scan操作会返回整行所有Column Family的数据。 3.通过调用HTable.setScannerCaching(int scannerCaching)可以设置HBas...

2014-07-25 10:52:03 387

原创 hive自定义InputFormat

自定义分隔符package com.lwz.inputf;import java.io.IOException; import java.io.InputStream;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import or...

2014-07-25 09:13:24 681

原创 HiveServer2连接ZooKeeper出现Too many connections问题的解决

HiveServer2连接ZooKeeper出现Too many connections问题的解决作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息网址: http://www.cnblogs.com/panfeng412/archive/2013/03/23/hiveserver2-too-many-zookeeper-connections-issues...

2014-07-24 08:49:28 893

原创 hive 常用命令

1.hive通过外部设置参数传入脚本中: hive -hiveconf enter_school_date="20130902" -hiveconf min_ag="26" -f testvar.sql 脚本调用参数:use test; select * from student where pdate='${hiveconf:ente...

2014-07-17 22:22:47 99

原创 hadoop配置的修改

1.修改/etc目录下yarn-site.xml的配置,重启机器配置不生效 修改/var/run/clouder-scm-agent目录下yarn-site.xml的配置,重启节点配置不生效 在cloudera manager控制面板中在服务yarn中查看和编辑下的默认中 高级选项内,能修改yarn-site.xml配置,重启集群生效...

2014-07-17 09:25:33 149

原创 CouderaHadoop中hive的Hook扩展

最近在做关于CDH4.3.0的hive封装,其中遇到了很多问题!其中最困难的是如何在不更改源代码的情况下动态获取jobId! 在项目进行的过程中,我们尝试了很多方式!在尝试的过程中虽然也有很多失败,但对于理解hive的内部机制也更一步的认识,我这里想说的是自定义扩展hook! 在CDH版本的hive中提供了很多hook,俗称钩子函数!这样我们可以通过自定义hook,来...

2014-07-16 21:18:58 720

原创 利用SemanticAnalyzerHook回过滤不加分区条件的Hive查询

我们Hadoop集群中将近百分之80的作业是通过Hive来提交的,由于Hive写起来简单便捷,而且我们又提供了Hive Web Client,所以使用范围很广,包括ba,pm,po,sales都在使用hive进行ad-hoc查询,但是hive在降低用户使用门槛的同时,也使得用户经常写不合理开销很大的语句,生成了很多的mapreduce job,占用了大量slot数,其中最典型的例子就是分区表查询,...

2014-07-16 16:43:38 306

原创 hive 授权

Hive授权(Security配置)博客分类: Hive分享 摘:https://cwiki.apache.org/Hive/languagemanual-auth.html https://cwiki.apache.org/Hive/authdev.html http://grokbase.com/t/hive/user/11aksphhas...

2014-07-15 10:51:04 1373

原创 文件权限掩码

今天在看HIVE授权管理时看到一个概念:文件权限掩码(umask) 细看了一下,大概是这样一个意思:umask需要一个相逆过程和文件的x位设置问题 Xml代码 收藏代码功能说明:指定在建立文件时预设的权限掩码。 语  法:umask [-S][权限掩码] 补充说明:umask可用来设定[权限掩码]。[权限掩码]是由3个八进制的数字所组成,将现有的存取权限减掉权...

2014-07-15 10:06:08 2943

原创 hive静态分区和动态分区的特点

hive中的静态分区与动态分区分类: hadoop+hive+hbase 2012-03-15 10:45 2532人阅读 评论(0) 收藏 举报mapreducedateinserttablejobsinputhive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实...

2014-07-09 22:17:28 1081

原创 hive并发问题

Hive 并发模型使用案例并发支持 (http://issues.apache.org/jira/browse/HIVE-1293) 是数据库的必须,而且他们的使用案例很好懂。至少,我们要尽可能支持并发读和写。添加几个发现当前已经锁定的锁,是有用的。这里没有一个直接的需求添加一个API显式获取锁,所以,所有锁都是隐式获取的。hive定义一下模式的锁(注意不需要意向锁)共享 ...

2014-07-09 20:00:14 2119

原创 hdfs的回收站

在Linux操作系统下面,如果用户删除了某一个文件或者是某一个文件目录,操作系统并不会把这文件从文件系统中真正删除,而是先把它放入回收站中,这样在用户误操作的情况下还能找回原文件,以防止给用户造成中大损失。实际上,HDFS也为用户提供了类似这样的一个功能,但是这样的功能只限于用户在客户端的脚本操作,也就是HDFS的shell命令,而当用户写程序调用HDFS的API时,NameNode并不会把删...

2014-07-09 19:06:57 222

原创 hive的常见问题

1. org.apache.thrift.transport.TTransportException: Could not create ServerSocket on address 0.0.0.0/0.0.0.0:10000问题:hive --service hiveserver 启动hiveserver服务解决方法:端口被占用 ,kill 该端口进程或者重新制定端口 h...

2014-07-09 11:36:21 368

原创 Map.Entry的使用方法

你是否已经对每次从Map中取得关键字然后再取得相应的值感觉厌倦?使用Map.Entry类,你可以得到在同一时间得到所有的信息。标准的Map访问方法如下:Set keys = map.keySet( );if(keys != null) {Iterator iterator = keys.iterator( );while(iterator.hasNext( )) {Object key =...

2014-07-08 15:26:15 190

原创 hive常用设置参数

hadoop 常用参数整理 (2013-01-16 15:06:22)转载▼标签: 杂谈 分类: hadoophadoop 版本1.03hadoop.tmp.dir ---> mapred-site.xml默认值: /tmp说明: 尽量手动配置这个选项,否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候,如果服务器是多磁盘的,每个磁盘都设置一个临时文件...

2014-07-08 14:49:18 294

原创 hive不同格式存储的性能测试

Hive文件存储格式的测试比较博客分类: Hive分享 整理了一下网上的几种Hive文件存储格式的性能与Hadoop的文件存储格式。 Hive的三种文件格式:TEXTFILE、SEQUENCEFILE、RCFILE中,TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的,RCFILE是基于行列混合的思想,先按行把数据划分成N个row group,在ro...

2014-07-08 14:38:14 345

原创 hive内连接和左半链接不一致的问题

一、理论HIVE中都是按等值连接来统计的,理论上两种写法统计结果应该是一致的;二、实际情况但实际使用中发现两种写法会返回的结果,总会有一些差距虽然差别不大,但让人很是困惑。三、原因当使用join on的时候,如果右表有重复数据就会关联更多的数据,因为它们都符合join on上的条件;而使用left semi join的时候,当join左侧表中的记录在...

2014-07-08 12:22:49 168

原创 hive执行流程入口 源码入口

图片地址 :http://hi.csdn.net/attachment/201107/29/0_1311922740tXqK.gifCliDriver可以说是hive的入口,对应上图中的UI部分。大家看它的结构就可以明白了,main()函数!对!你猜的没错就是从main()开始。下图是类结构,总共有五个关键的函数。这个类可以说是用户和hive交互的平台,你可以把它认为是hive客户...

2014-07-07 10:16:13 439

原创 hive的学习线路

http://blog.fens.me/hadoop-hive-roadmap/

2014-07-06 21:20:50 110

原创 hive sql优化(全排序,笛卡尔积,exist in,决定reducer个数,合并MapReduce)

hive 全排序 优化分类: hive hadoop hadoop 2013-01-28 20:11 717人阅读 评论(0) 收藏 举报hive hadoop目录(?)[+]使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下,因为不熟悉数据特性,或没有遵循Hive的优化约定,Hive计算任务会变得非常低效,甚至无法得到结果。一个”好”的Hive程...

2014-07-06 14:03:03 1529

原创 hive元数据和mysql表的对应

Hive元数据解析 本文是笔者初步整理的Hive元数据表,有不准确的地方请轻拍,后续我会补充.1. Hive 0.11 元数据表汇总线上Hive 0.11 metastore包括下述39个表,主要分为以下几类 : Database相关 Table相关 数据存储相关SDS COLUMN相关 SERDE相关(序列化) P...

2014-07-04 15:42:55 468

原创 hive初始化、处理流程详解

CliDriver 初始化过程 CliDriver.main 是 Cli 的入口 (1) 解析(Parse)args,放入cmdLine,处理 –hiveconf var=val 用于增加或者覆盖hive/hadoop配置,设置到System的属性中。 (2) 配置log4j,加载hive-log4j.properties里的配置信息。 (3)创建一个HiveC...

2014-07-03 15:05:08 1218

原创 Hive metastore三种配置方式

Hive的meta数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore。 一、本地derby这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可[html] view plaincopyprint? ...

2014-07-02 14:00:46 112

原创 derby 的配置及jdbc连接

hive-default.xml javax.jdo.option.ConnectionURL jdbc:derby:;databaseName=metastore_db;create=true 表示使用嵌入式的derby,create为true表示自动创建数据库,数据库名为metastore_db 表示使用客服模式的derby,hadoopor为数据库名,192....

2014-07-02 10:32:43 2387

原创 hive参数的意义

第一部分:Hive 参数 hive.exec.max.created.files •说明:所有hive运行的map与reduce任务可以产生的文件的和 •默认值:100000 hive.exec.dynamic.partition •说明:是否为自动分区 •默认值:false hive.mapred.reduce.tasks.speculative.execution ...

2014-07-01 16:48:17 169

原创 hive外部表建立时出现的问题

1:刚刚研究hive,遇到一个很迷糊的问题,我想load hadoop下的a.txt文件,将这些数据导入到/user/hive/warehouse/下的testHiveDriverTable表中,只想导入数据,不想移动该文件。 2但是每次运行后,该文件都会自动的移动到/user/hive/warehouse/下。我看教程说,建立外部表的话,就不会移动hdfs上的文件位置,但是这些我都尝试了,还...

2014-07-01 16:46:12 553

原创 WARN conf.HiveConf: DEPRECATED: Configuration property hive.metastore.local no l

警告信息:WARN conf.HiveConf: DEPRECATED: Configuration property hive.metastore.local no longer has any effect.Make sure to provide a valid value for hive.metastore.uris if you are connecting to a ...

2014-07-01 09:52:07 261

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除