2014年07月_王诗龄

原创 hive数据的导出

在本博客的《Hive几种数据导入方式》文章中，谈到了Hive中几种数据的导入方式，不同的数据导入方式用途不一样。今天我们再谈谈Hive中的几种不同的数据导出方式。可以根据导出的地方不一样，将这些方式分为三种：（1）、导出到本地文件系统；（2）、导出到HDFS中；（3）、导出到Hive的另一个表中。为了避免单纯的文字，我将一步一步地用命令进行说明。　　一、导出到本地文件系统　　h...

2014-07-28 21:53:23 110

原创 hive udaf

package com.lwz.udaf;import org.apache.hadoop.hive.ql.exec.UDAF;import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;//1.此函数区分一条记录的方法，如果没有group by和where的检索，那么整个表的数据都会被作为一条数据，从而只会init（）一次//然后再...

2014-07-25 16:11:20 128

原创 hbase scan问题

1.通过scan取完数据后，记得要关闭ResultScanner，否则RegionServer可能会出现问题 2.scan时指定需要的Column Family，可以减少网络传输数据量，否则默认scan操作会返回整行所有Column Family的数据。 3.通过调用HTable.setScannerCaching(int scannerCaching)可以设置HBas...

2014-07-25 10:52:03 387

原创 hive自定义InputFormat

自定义分隔符package com.lwz.inputf;import java.io.IOException; import java.io.InputStream;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import or...

2014-07-25 09:13:24 681

原创 HiveServer2连接ZooKeeper出现Too many connections问题的解决

HiveServer2连接ZooKeeper出现Too many connections问题的解决作者: 大圆那些事 | 文章可以转载，请以超链接形式标明文章原始出处和作者信息网址: http://www.cnblogs.com/panfeng412/archive/2013/03/23/hiveserver2-too-many-zookeeper-connections-issues...

2014-07-24 08:49:28 893

原创 hive 常用命令

1.hive通过外部设置参数传入脚本中： hive -hiveconf enter_school_date="20130902" -hiveconf min_ag="26" -f testvar.sql 脚本调用参数：use test; select * from student where pdate='${hiveconf:ente...

2014-07-17 22:22:47 99

原创 hadoop配置的修改

1.修改/etc目录下yarn-site.xml的配置,重启机器配置不生效修改/var/run/clouder-scm-agent目录下yarn-site.xml的配置,重启节点配置不生效在cloudera manager控制面板中在服务yarn中查看和编辑下的默认中高级选项内,能修改yarn-site.xml配置,重启集群生效...

2014-07-17 09:25:33 149

原创 CouderaHadoop中hive的Hook扩展

最近在做关于CDH4.3.0的hive封装，其中遇到了很多问题！其中最困难的是如何在不更改源代码的情况下动态获取jobId！在项目进行的过程中，我们尝试了很多方式！在尝试的过程中虽然也有很多失败，但对于理解hive的内部机制也更一步的认识，我这里想说的是自定义扩展hook! 在CDH版本的hive中提供了很多hook，俗称钩子函数！这样我们可以通过自定义hook，来...

2014-07-16 21:18:58 720

原创利用SemanticAnalyzerHook回过滤不加分区条件的Hive查询

我们Hadoop集群中将近百分之80的作业是通过Hive来提交的，由于Hive写起来简单便捷，而且我们又提供了Hive Web Client，所以使用范围很广，包括ba，pm，po，sales都在使用hive进行ad-hoc查询，但是hive在降低用户使用门槛的同时，也使得用户经常写不合理开销很大的语句，生成了很多的mapreduce job，占用了大量slot数，其中最典型的例子就是分区表查询，...

2014-07-16 16:43:38 306

原创 hive 授权

Hive授权（Security配置）博客分类： Hive分享摘：https://cwiki.apache.org/Hive/languagemanual-auth.html https://cwiki.apache.org/Hive/authdev.html http://grokbase.com/t/hive/user/11aksphhas...

2014-07-15 10:51:04 1373

原创文件权限掩码

今天在看HIVE授权管理时看到一个概念：文件权限掩码（umask）细看了一下，大概是这样一个意思：umask需要一个相逆过程和文件的x位设置问题 Xml代码收藏代码功能说明：指定在建立文件时预设的权限掩码。语　　法：umask [-S][权限掩码] 补充说明：umask可用来设定[权限掩码]。[权限掩码]是由3个八进制的数字所组成，将现有的存取权限减掉权...

2014-07-15 10:06:08 2943

原创 hive静态分区和动态分区的特点

hive中的静态分区与动态分区分类： hadoop+hive+hbase 2012-03-15 10:45 2532人阅读评论(0) 收藏举报mapreducedateinserttablejobsinputhive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段，而是一个或者多个伪列。意思是说在表的数据文件中实...

2014-07-09 22:17:28 1081

原创 hive并发问题

Hive 并发模型使用案例并发支持 (http://issues.apache.org/jira/browse/HIVE-1293) 是数据库的必须,而且他们的使用案例很好懂。至少，我们要尽可能支持并发读和写。添加几个发现当前已经锁定的锁，是有用的。这里没有一个直接的需求添加一个API显式获取锁，所以，所有锁都是隐式获取的。hive定义一下模式的锁(注意不需要意向锁)共享 ...

2014-07-09 20:00:14 2119

原创 hdfs的回收站

在Linux操作系统下面，如果用户删除了某一个文件或者是某一个文件目录，操作系统并不会把这文件从文件系统中真正删除，而是先把它放入回收站中，这样在用户误操作的情况下还能找回原文件，以防止给用户造成中大损失。实际上，HDFS也为用户提供了类似这样的一个功能，但是这样的功能只限于用户在客户端的脚本操作，也就是HDFS的shell命令，而当用户写程序调用HDFS的API时，NameNode并不会把删...

2014-07-09 19:06:57 222

原创 hive的常见问题

1. org.apache.thrift.transport.TTransportException: Could not create ServerSocket on address 0.0.0.0/0.0.0.0:10000问题：hive --service hiveserver 启动hiveserver服务解决方法：端口被占用，kill 该端口进程或者重新制定端口 h...

2014-07-09 11:36:21 368

原创 Map.Entry的使用方法

你是否已经对每次从Map中取得关键字然后再取得相应的值感觉厌倦？使用Map.Entry类，你可以得到在同一时间得到所有的信息。标准的Map访问方法如下：Set keys = map.keySet( );if(keys != null) {Iterator iterator = keys.iterator( );while(iterator.hasNext( )) {Object key =...

2014-07-08 15:26:15 190

原创 hive常用设置参数

hadoop 常用参数整理 (2013-01-16 15:06:22)转载▼标签：杂谈分类： hadoophadoop 版本1.03hadoop.tmp.dir ---> mapred-site.xml默认值： /tmp说明：尽量手动配置这个选项，否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候，如果服务器是多磁盘的，每个磁盘都设置一个临时文件...

2014-07-08 14:49:18 294

原创 hive不同格式存储的性能测试

Hive文件存储格式的测试比较博客分类： Hive分享整理了一下网上的几种Hive文件存储格式的性能与Hadoop的文件存储格式。 Hive的三种文件格式：TEXTFILE、SEQUENCEFILE、RCFILE中，TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的，RCFILE是基于行列混合的思想，先按行把数据划分成N个row group，在ro...

2014-07-08 14:38:14 345

原创 hive内连接和左半链接不一致的问题

一、理论HIVE中都是按等值连接来统计的，理论上两种写法统计结果应该是一致的；二、实际情况但实际使用中发现两种写法会返回的结果，总会有一些差距虽然差别不大，但让人很是困惑。三、原因当使用join on的时候，如果右表有重复数据就会关联更多的数据，因为它们都符合join on上的条件；而使用left semi join的时候，当join左侧表中的记录在...

2014-07-08 12:22:49 168

原创 hive执行流程入口源码入口

图片地址：http://hi.csdn.net/attachment/201107/29/0_1311922740tXqK.gifCliDriver可以说是hive的入口，对应上图中的UI部分。大家看它的结构就可以明白了，main（）函数！对！你猜的没错就是从main（）开始。下图是类结构，总共有五个关键的函数。这个类可以说是用户和hive交互的平台，你可以把它认为是hive客户...

2014-07-07 10:16:13 439

原创 hive的学习线路

http://blog.fens.me/hadoop-hive-roadmap/

2014-07-06 21:20:50 110

原创 hive sql优化（全排序，笛卡尔积，exist in，决定reducer个数，合并MapReduce）

hive 全排序优化分类： hive hadoop hadoop 2013-01-28 20:11 717人阅读评论(0) 收藏举报hive hadoop目录(?)[+]使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下，因为不熟悉数据特性，或没有遵循Hive的优化约定，Hive计算任务会变得非常低效，甚至无法得到结果。一个”好”的Hive程...

2014-07-06 14:03:03 1529

原创 hive元数据和mysql表的对应

Hive元数据解析本文是笔者初步整理的Hive元数据表，有不准确的地方请轻拍，后续我会补充.1. Hive 0.11 元数据表汇总线上Hive 0.11 metastore包括下述39个表，主要分为以下几类： Database相关 Table相关数据存储相关SDS COLUMN相关 SERDE相关(序列化) P...

2014-07-04 15:42:55 468

原创 hive初始化、处理流程详解

CliDriver 初始化过程 CliDriver.main 是 Cli 的入口（1）解析(Parse)args，放入cmdLine，处理 –hiveconf var=val 用于增加或者覆盖hive/hadoop配置，设置到System的属性中。（2）配置log4j，加载hive-log4j.properties里的配置信息。（3）创建一个HiveC...

2014-07-03 15:05:08 1218

原创 Hive metastore三种配置方式

Hive的meta数据支持以下三种存储方式，其中两种属于本地存储，一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式，链接为：Hive Metastore。一、本地derby这种方式是最简单的存储方式，只需要在hive-site.xml做如下配置便可[html] view plaincopyprint? ...

2014-07-02 14:00:46 112

原创 derby 的配置及jdbc连接

hive-default.xml javax.jdo.option.ConnectionURL jdbc:derby:;databaseName=metastore_db;create=true 表示使用嵌入式的derby，create为true表示自动创建数据库，数据库名为metastore_db 表示使用客服模式的derby，hadoopor为数据库名，192....

2014-07-02 10:32:43 2387

原创 hive参数的意义

第一部分：Hive 参数 hive.exec.max.created.files •说明：所有hive运行的map与reduce任务可以产生的文件的和 •默认值:100000 hive.exec.dynamic.partition •说明：是否为自动分区 •默认值：false hive.mapred.reduce.tasks.speculative.execution ...

2014-07-01 16:48:17 169

原创 hive外部表建立时出现的问题

1：刚刚研究hive，遇到一个很迷糊的问题，我想load hadoop下的a.txt文件，将这些数据导入到/user/hive/warehouse/下的testHiveDriverTable表中，只想导入数据，不想移动该文件。 2但是每次运行后，该文件都会自动的移动到/user/hive/warehouse/下。我看教程说，建立外部表的话，就不会移动hdfs上的文件位置，但是这些我都尝试了，还...

2014-07-01 16:46:12 553

原创 WARN conf.HiveConf: DEPRECATED: Configuration property hive.metastore.local no l

警告信息：WARN conf.HiveConf: DEPRECATED: Configuration property hive.metastore.local no longer has any effect.Make sure to provide a valid value for hive.metastore.uris if you are connecting to a ...

2014-07-01 09:52:07 261

疯狂的矩阵