hive
文章平均质量分 74
hive
小朋友,你是否有很多问号?
这个作者很懒,什么都没留下…
展开
-
hive lateral view explode + union all 丢数问题
select xxxxx from table lateral view explode(split(regexp_replace(businessdict,'\\[|\\]','__'),'__')) col as jsons where pt=${v_1day} and businessdict like '%name%' union all select xxxx from table当使用 lateral view ...原创 2022-04-12 11:02:51 · 2663 阅读 · 4 评论 -
hive优化最后一版整理
一、物理存储方面hive数据存储的格式有文本格式(TextFile)、二进制序列化文件(sequenceFile)、行列式文件(RCFile)、Apache Parquent 和 优化的行列式文件(ORCFile)ORCFile 和 Parquent,高效的数据存储和数据处理性能得以在实际的生产环境中大量运用。同时 ORCfile对于索引的处理进行了优化Bloom Filter Index 和 Row Group Index 链接http://lxw1234.com/archives/20...原创 2021-02-01 14:28:40 · 224 阅读 · 0 评论 -
hive时间函数
1.日期函数UNIX时间戳转日期函数:from_unixtime语法:from_unixtime(bigint unixtime[, stringformat])返回值: string说明: 转化UNIX时间戳(从1970-01-0100:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:hive> select from_unixtime(1323308943,'yyyyMMdd') from dual;201112082.获取当前UNIX时间戳函数:unix_tim...转载 2021-01-27 15:17:31 · 298 阅读 · 0 评论 -
hive orc 和 parquet简单对比
Impala推荐使用parquet格式,不支持ORC,Rcfile - Hive 0.x版本推荐使用rcfile - PrestoDB推荐使用ORC - Spark支持ORC,Parquet,Rcfile Parquet与ORC对比orc.compress:表示ORC文件的压缩类型,「可选的类型有NONE、ZLB和SNAPPY,默认值是ZLIB(Snappy不支持切片)parquet. compression:默认值为 UNCOMPRESSED,表示页的..原创 2021-01-14 15:34:57 · 1807 阅读 · 1 评论 -
order by sort by cluster by 区别
文章转自https://blog.csdn.net/yangbosos/article/details/889906411. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。 这里跟传统的...转载 2020-12-31 10:07:11 · 213 阅读 · 0 评论 -
Hive数据倾斜的原因及主要解决方法
转载自https://www.cnblogs.com/sx66/p/12039563.html数据倾斜产生的原因数据倾斜的原因很大部分是join倾斜和聚合倾斜两大类Hive倾斜之group by聚合倾斜原因: 分组的维度过少,每个维度的值过多,导致处理某值的reduce耗时很久; 对一些类型统计的时候某种类型的数据量特别多,其他的数据类型特别少。当按照类型进行group by的时候,会将相同的group by字段的reduce任务需要的数据拉取到同一个节点进行聚合,而当其中每一组的数.转载 2020-12-31 10:02:26 · 295 阅读 · 0 评论 -
Hive SQL的编译过程
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比...转载 2018-07-17 23:07:06 · 279 阅读 · 0 评论 -
hive count(distinct) 原理
Hive是Hadoop的子项目,它提供了对数据的结构化管理和类SQL语言的查询功能。SQL的交互方式极大程度地降低了Hadoop生态环境中数据处理的门槛,用户不需要编写程序,通过SQL语句就可以对数据进行分析和处理。目前很多计算需求都可以由Hive来完成,极大程度地降低了开发成本。目前,Hive底层使用MapReduce作为实际计算框架,SQL的交互方式隐藏了大部分MapReduce的细节。这种细...转载 2018-06-21 14:40:01 · 9077 阅读 · 1 评论 -
hvie 优化
1.配置方面的优化hive在解析sql的时候会默认认为最后一张表是大表,会把其他的表尝试缓存起来,然后扫描最后一个表进行计算,但是用户并不会经常性的将大表放到最后,所以我们可以在sql里面加一个配置,自动去检测并告诉查询优化器哪个是大表如select /*+streamtable(s)*/a.id from log a left join user b on a.uid=b.uid2....原创 2018-04-23 21:39:44 · 462 阅读 · 0 评论 -
hive一些不常用的语法命令
数据库列举所有已h开头的,以其他字符结尾的数据库名:show databases like 'h.*'修改库的默认存放位置create database is not exists ods location '/my/directory'添加描述信息create database ods comment 'ods tables' with dbproperties...原创 2018-04-13 15:32:44 · 193 阅读 · 0 评论 -
hive parse_url 函数的使用
parse_url(url, partToExtract[, key]) - extracts a part from a URL解析URL字符串,partToExtract的选项包含[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO]。【host,path,query,ref,protocol,file,authority,userinfo...原创 2018-03-21 13:42:42 · 9413 阅读 · 1 评论 -
用hive实现判断股票价格的波峰 波谷
需求 对与统一类别的股票在连续时间的三个价格中 如果中间的价格比旁边的高为波峰 比方便的低为波谷比如下图11,10为波谷 13为波峰1513121110原创 2017-12-14 14:53:17 · 3315 阅读 · 1 评论 -
hive-行转列列转行
一、ids type 1 A 1 C 1 E 2 B 2 D 2 F ids A B C D E F 1 1 0 1 0 1 0 2 0 1 0 1 0 1 将第一个表格的数据变成第二种两种...原创 2017-12-14 12:19:53 · 1393 阅读 · 0 评论 -
hive元数据
转载自http://lxw1234.com/archives/2015/07/378.htm13.1 存储Hive版本的元数据表(VERSION)该表比较简单,但很重要。VER_IDSCHEMA_VERSIONVERSION_COMMENTID主键Hive版本版本说明10.13.0S转载 2017-09-18 16:07:41 · 530 阅读 · 0 评论 -
hive元数据相关信息
文章转载自 http://www.2cto.com/database/201311/255627.html1. Hive 0.11 元数据表汇总线上Hive 0.11 metastore包括下述39个表,主要分为以下几类 : Database相关 Table相关 数据存储相关SDS COLUMN相关 SERDE相关(序列化)转载 2017-07-28 11:03:27 · 427 阅读 · 0 评论 -
hive实用的一些语句和方法
一、动态分区参考http://lxw1234.com/archives/2015/06/286.htmhive.exec.dynamic.partition默认值:false是否开启动态分区功能,默认false关闭。使用动态分区时候,该参数必须设置成true;hive.exec.dynamic.partition.mode默认值:strict动态分区的模式,默认strict,表示...原创 2017-05-22 15:58:46 · 634 阅读 · 0 评论 -
Hive优化
文章转载自http://www.cnblogs.com/yshb/p/3147710.htmlhive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.li转载 2017-02-07 13:52:33 · 418 阅读 · 0 评论 -
hive配置参数的说明:
hive配置参数的说明: hive.ddl.output.format:hive的ddl语句的输出格式,默认是text,纯文本,还有json格式,这个是0.90以后才出的新配置;hive.exec.script.wrapper:hive调用脚本时的包装器,默认是null,如果设置为python的话,那么在做脚本调用操作时语句会变为python ,null的话就是直接执行<scr转载 2017-01-04 10:07:20 · 787 阅读 · 0 评论