hive
文章平均质量分 86
小满锅lock
微信公众号 小满锅
展开
-
关于hive on spark的distribute by和group by使用以及小文件合并问题
问题导言最近在使用hive时,发现一些任务的因为使用mapreduce的缘故,跑的太慢了,才几十个G的数据就经常跑一个多小时,于是有了切换spark的想法。但是刚刚切换了spark,第二天发现跑出来的数据文件数大大增加,而且每个文件都非常小,导致下游spark任务为了每个小文件都启动一个task,申请资源对于spark来说是非常消耗资源的,任务又大大延迟了。查了下关于spark合并小文件,目前有几个参数会提供参考。输入端set mapred.max.split.size=256000000;设原创 2021-01-25 23:37:28 · 3705 阅读 · 0 评论 -
Hive系列-巧用开窗函数解决分组Top-K问题
最近遇到一个需求,要将数据分组,然后取每组最新的数据,刚开始各种join操作,都很繁杂,对于大数据量来说,实为不妥,计算总是超过了300多秒。于是干脆直接用了开窗select t.field1,field2,field3,field4 from( select field1,field2,field3,field4,rank() over(partition by field1,field2 order by create_time desc) as ranks原创 2020-05-26 14:59:20 · 643 阅读 · 0 评论 -
Hive系列-文件存储格式
TextFile默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoop fs -cat 查看Sequence一种Hadoop API提供的二进制文件,使用方便、可分割、可压缩等特点。SEQUENCEFILE将数据以<key,value>的形式序列化到文件中。RC比如select a from tablelt...原创 2020-04-30 11:43:20 · 238 阅读 · 0 评论 -
Hive系列-in与left semi join
select s_id from score where c_id in(select c_id from score where s_id='01')group by s_id;select b.s_idfrom score b join score c on b.c_id=c.c_id and c.s_id='01' group by b.s_id;select s_idfr...原创 2020-04-28 22:03:25 · 558 阅读 · 1 评论 -
Hive:Hive的开窗函数
不说了,直接使用别人的表来做一个测试表吧-- 建表create table student_scores(id int,studentId int,language int,math int,english int,classId string,departmentId string);-- 写入数据insert into table student_scores valu...原创 2020-04-07 17:06:44 · 293 阅读 · 0 评论 -
Hive on Tez
DownlondTez解压安装tar -zxvf apache-tez-0.9.1-bin.tar.gzmv apache-tez-0.9.1-bin/ tez-0.9.1我的文件目录:tez:/usr/local/tez-0.9.1hive: /usr/local/hive上传tez到集群hadoop fs -mkdir /tezhadoop fs -put tez-0....原创 2020-04-03 16:11:02 · 192 阅读 · 0 评论 -
hive常见问题(三)---Expression not in GROUP BY
FAILED: SemanticException [Error 10025]: Line 1:59 Expression not in GROUP BY key 'guid'最近在使用hive时会出现这样的问题insert overwrite table session_info_temp1select sessionid,guid,enduserid,url,max(...原创 2019-09-17 19:44:01 · 1499 阅读 · 0 评论 -
hive数据仓库(四)----select及其附属关键字用法
Group bygroup by是根据某一个字段对数据进行分组;比如我们这里有个数据我们针对job进行分组select job,count(*) from empp group by job;但是呢,一定要记住,我们根据某一个字段进行分组了,比如这里进行分组了,如果还要打印其他字段。比如:select ename,job from empp group by...原创 2019-09-10 21:10:38 · 688 阅读 · 0 评论 -
Hive数据仓库(三)----基础知识
前面讲了一些数据仓库的安装和DDL的基本使用以及hive的简单架构,只要你熟悉基本的sql,就能够进行基本的hive数据分析。当然,我们还是得区分一般传统数据库和hive,毕竟sql不能完全适用hive,一些基础知识还是要掌握的。内部表和外部表我们常用的表一般就是内部表(inner),它时hive默认创建的表,它的元数据存储在了数据库里面,实际的数据以某种格式存储在了hdfs,这里的...原创 2019-09-09 20:49:11 · 285 阅读 · 0 评论 -
Hive数据仓库(二)----DDL
Data Definition Laguange俗称数据定义语言。hive的DDL操作包括了一些基本的建表和一些基本命令操作基本操作查看数据库:show databases;使用某一个数据库:use tablename;查看某一个数据库的表:show tables;显示某一个表的列信息:desc tablename或者describe tablenam...原创 2019-09-09 17:09:51 · 472 阅读 · 0 评论 -
针对hive选择单列查询时,用不用mapreduce
针对hive选择单列查询时,用不用mapreduce或者说哪些任务执行mapreducehive.fetch.task.conversion有more和minimalnone配置项,可以调节查询操作时用不用mapreduce我是用的more能够使更多查询不用调用mapreduce比如select name from tablename;这些简单的就不会调用mapr...原创 2019-09-08 18:54:51 · 444 阅读 · 0 评论 -
hive显示数据库名称和字段名称
显示数据库名称和字段名称修改hive-site配置文件显示查询出来数据的字段名称修改hive.cli.print.header是否在当前客户端中显示数据库名称和hive.cli.print.current.db就可以了,改为true...原创 2019-09-08 18:53:25 · 1223 阅读 · 0 评论 -
hive元数据备份与还原
在生产环境中,有时候在数据迁移,或者转存数据以及其他操作时,可能会造成数据的丢失。所以对于hive,尤其数据量特别大的时候,对数据进行操作时,还是可能丢失数据的。我们要知道,对于hive,元数据存储在自带的derby数据库,或者第三方数据库,比如mysql。当元数据丢失时,可能会造成一系列问题:启动hive时,无法初始化metastore,无法创建链接,无法创建任务1:hive的...原创 2019-09-08 18:52:06 · 1716 阅读 · 0 评论 -
hive常见问题(2)-Caused by: org.apache.hadoop.security.AccessControlException: Permission denied: user=ro
Caused by: org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=EXECUTE, inode="/tmp/hadoop-yarn":hadoop:supergroup:drwx------在执行查询hql操作时,并不能进行mapreduce转换,并且报上面的...原创 2019-09-08 17:32:37 · 1472 阅读 · 0 评论 -
hive常见问题(一)
hive在开启远程thrift服务供远程客户端访问后执行命令hive --service hiveserver2开启服务当客户端连接时!connect jdbc:hive2://......:10000会出现类似于User: hadoop is not allowed to impersonate hadoop (state=08S01,code=0)可以在hadoop的c...原创 2019-09-08 17:27:00 · 237 阅读 · 0 评论 -
Hive数据仓库(一)-----简介
这篇文章对hive一个简介,以后会对各部分,使用,还有使用遇到的问题都会反应的。感谢大家支持数据仓库和数据库hive被称作数据仓库,逻辑上面和数据库一样,都是用来存取数据的。但是和数据库又有本质的区别。W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。面向主题是指数据仓库可能注重某一类型的数据,比如针对某一订单类型的数据,就是...原创 2019-09-08 10:51:23 · 846 阅读 · 0 评论