![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
hankl1990
show me the code
展开
-
Hive 窗口函数札记
hive 窗口函数原创 2024-02-20 22:15:00 · 909 阅读 · 0 评论 -
hive里如何高效生成唯一ID
常见的方式:hive里最常用的方式生成唯一id,就是直接使用 row_number() 来进行,这个对于小数据量是ok的,但是当数据量大的时候会导致,数据倾斜,因为最后生成全局唯一id的时候,这个任务是放在一个reduce里进行的,数据量过大会有很大的瓶颈。优化的方式:主体的思想就是先分再合,参考下一个思路:这个思路是借鉴了一篇文章的思路:附上链接:bitmap用户分群方法在贝壳DMP的实践和应用_架构_侯学博_InfoQ精选文章我是只想用sql来做具体的实现,如何实现最好原创 2023-11-29 22:45:00 · 1096 阅读 · 0 评论 -
常用的正则匹配
转:http://www.cnblogs.com/zxin/archive/2013/01/26/2877765.html很多不太懂正则的朋友,在遇到需要用正则校验数据时,往往是在网上去找很久,结果找来的还是不很符合要求。所以我最近把开发中常用的一些正则表达式整理了一下,在这里分享一下。给自己留个底,也给朋友们做个参考。一、校验数字的表达式 1 数字:^[0-9]*$ 2转载 2017-10-27 16:12:57 · 275 阅读 · 1 评论 -
hive-分组按比例获取样本如何实现?
hive 开窗函数的应用原创 2023-02-23 13:53:53 · 342 阅读 · 0 评论 -
hive之mapjoin
hive 的mapjoin起作用了我们如何确定?只是inner join 的时候看日志吧,最为直观:2021-12-10 12:05:41 Starting to launch local task to process map join; maximum memory = 9547284482021-12-10 12:05:44 Processing rows: 200000 Hashtable size: 199999 Memory usage: 135058920 percentage:原创 2021-12-11 11:00:00 · 2460 阅读 · 0 评论 -
hive - last_modified_time&transient_lastDdlTime
hive 表的属性原创 2021-12-04 07:30:00 · 2598 阅读 · 0 评论 -
hive 分号(;)在数据处理中带来的问题
1:遇到的问题:我在处理一个数据的时候,想把数据转为map形式,但是发现总是报错。NoViableAltException(114@[]) at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.function(HiveParser_IdentifiersParser.java:4628) at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.at原创 2021-05-17 15:07:52 · 454 阅读 · 0 评论 -
hive 之 lateral view
转子:http://blog.csdn.net/oopsoom/article/details/26001307Lateral View是Hive中提供给UDTF的conjunction,它可以解决UDTF不能添加额外的select列的问题。1. Why we need Lateral View?当我们想对hive表中某一列进行split之后,想对其转换成1 to N的模式,即一行转载 2017-09-20 11:18:01 · 646 阅读 · 0 评论 -
Hive 用ROW_NUMBER取每组top n
转自:http://blog.csdn.net/jobschen/article/details/70821064天用hive查数据时需要取每个分组的第一条数据,查了一发现hive 已经从0.11.0版本加入row_number函数,可以满足查询的需求。ROW_NUMBER() 是从1开始,按照顺序,生成分组内记录的序列 用法如下:ROW_NUMBER() OV转载 2017-09-28 18:48:20 · 986 阅读 · 0 评论 -
hive分组排序 取top N
转自:http://blog.csdn.net/longshenlmj/article/details/50525385hive中比较麻烦,没有直接实现的函数,可以写udf实现。还有个比较简单的实现方法:用row_number,生成排名序列号。然后外部分组后按这个序列号多虑,样例代码如下select a.*from( select 品牌,渠道,档期,count/su转载 2017-09-28 18:53:16 · 736 阅读 · 0 评论 -
shell命令执行hive脚本(hive交互,hive的shell编程)
转自:http://blog.csdn.net/longshenlmj/article/details/50542683Hive执行方式Hive的hql命令执行方式有三种:1、CLI 方式直接执行2、作为字符串通过shell调用hive –e执行(-S开启静默,去掉”OK”,”Time taken”)3、作为独立文件,通过shell调用 hive –f或hive –i执转载 2017-09-29 11:02:15 · 10307 阅读 · 1 评论 -
Hive 之 数据倾斜优化
转自:http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842860.html在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差转载 2017-09-30 13:55:51 · 254 阅读 · 0 评论 -
使用子查询来提升distinct count
转自:http://blog.csdn.net/z69183787/article/details/51732887Count distinct是SQL分析时的祸根,因此它是我第一篇博客的不二选择。首先:如果你有一个大的且能够容忍不精确的数据集,那像HyperLogLog这样的概率计数器应该是你最好的选择。(我们会在以后的博客中谈到HyperLogL转载 2017-10-10 11:56:42 · 594 阅读 · 0 评论 -
Hive 之 合并小文件
转:http://blog.csdn.net/yfkiss/article/details/8590486当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并当然,在我们转载 2017-11-07 14:21:37 · 7525 阅读 · 0 评论 -
关于lateral view 和 explode 很不错的讲解
转:http://blog.csdn.net/gamer_gyt/article/details/521694411:Array 顾名思义就是数组,使用方式 array 1):创建表 拿电影数据为例,数据的维度包括 创建movie_message表:[html] view plain copy转载 2017-11-01 17:22:24 · 12913 阅读 · 0 评论 -
Hive 优化之 共享中间结果集
转:http://blog.csdn.net/kwu_ganymede/article/details/499273111、优化前的SQL[sql] view plain copy SELECT COUNT(*) pv FROM ( SELECT cookieid,转载 2017-11-01 17:27:52 · 594 阅读 · 0 评论 -
hive 优化 控制 map 和 reduce的数量
http://blog.csdn.net/ljq32/article/details/25810001文章源地址:http://superlxw1234.iteye.com/blog/1582880关于hive选项:hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat, cdh4版转载 2017-11-01 18:17:07 · 411 阅读 · 0 评论 -
hive 的map struct 以及array数据类型的使用
转:http://www.cnblogs.com/end/archive/2013/01/17/2863884.htmlhive提供了复合数据类型:Structs: structs内部的数据可以通过DOT(.)来存取,例如,表中一列c的类型为STRUCT{a INT; b INT},我们可以通过c.a来访问域aMaps(K-V对):访问指定域可以通过["指定域名称"]进行,例如转载 2018-01-05 14:43:56 · 466 阅读 · 0 评论 -
关于hive的建表操作
搜集了几篇博客,结合我们自己生产上的实例,整理了一下: hive 创建外部表语句实例: CREATE EXTERNAL TABLE `xxxx`( `mac` string, `did` string, `uid` string, `sid` string, `tc_version` string, `app_versio转载 2018-01-30 11:25:55 · 1779 阅读 · 0 评论 -
Hive 之 关于时间的函数
转子:http://blog.csdn.net/ningyuanhuo/article/details/21481307日期函数UNIX时间戳转日期函数: from_unixtime语法: from_unixtime(bigint unixtime[, string format])返回值: string说明: 转化UNIX时间戳(从1970-0转载 2017-09-19 14:09:49 · 309 阅读 · 0 评论 -
Hive基础(3):表分类、视图、数据加载方式、数据的导出、本地模式
转自:http://blog.csdn.net/dou_dou_shuai/article/details/51443777复习:1、加载数据的两种模式读模式数据被加载到数据库的时候,不对其合法性进行校验,只在查询等操作的时候进行校验,特点:加载速度快,适合大数据的加载写模式数据被加载到数据库的时候,需对其合法性进行校验,数据库中的数据都是合法的数据,特点:加载速度慢,但是转载 2017-09-26 19:00:08 · 288 阅读 · 0 评论 -
Hive 之 内置函数
转自:http://blog.csdn.net/sunlei1980/article/details/46602425一、关系函数1.等值比较:= 语法:A=B操作类型:所有基本类型2.不等值比较: 语法:A 操作类型:所有基本类型3.小于比较: 语法:A操作类型:所有基本类型4.空值判断:IS NULL 语法:转载 2017-08-03 17:22:26 · 251 阅读 · 0 评论 -
Hive 之 ORC
ZHUANZI :http://blog.csdn.net/longshenlmj/article/details/51702343hive表的源文件存储格式有几类: 1、TEXTFILE 默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoop fs -cat 查看 2、SEQUENCEFIL转载 2017-08-17 11:23:34 · 471 阅读 · 0 评论 -
hive 之 in 能否使用子查询的疑惑
hkl曰:从网上找了很多帖子,关于in是否可以跟子查询的问题各种说法,主要还是版本的问题。我们目前的版本是:1.2.1000支持子查询是没问题的:select did from edw.edw_player where mac in(select distinct(mac) from edw.etl_video_center_mac where day='2017-06-08'原创 2017-08-16 17:09:10 · 6920 阅读 · 0 评论 -
Hive 之 join大全
转自:http://blog.csdn.net/yfkiss/article/details/8073608Hive(0.9.0):1.支持equality joins, outer joins, and left semi joins2.只支持等值条件3.支持多表join原理hive执行引擎会将HQL“翻译”成为map-reduce任务,如果多张表使用同一列做转载 2017-08-09 10:48:14 · 412 阅读 · 0 评论 -
HIVE 之压缩格式
转自:http://blog.csdn.net/djd1234567/article/details/51581354压缩配置: map/reduce 输出压缩(一般采用序列化文件存储)set hive.exec.compress.output=true;set mapred.output.compression.codec=org.apache.hado转载 2017-08-16 13:36:03 · 765 阅读 · 0 评论 -
Hive 之 -e -f -i
zhuanzi: http://blog.csdn.net/u010220089/article/details/492317051、bin/hive -help[html] view plain copybin/hive -help 15/10/18 06:34:46 WARN conf.HiveConf: DEPRECA转载 2017-08-16 12:04:18 · 8161 阅读 · 0 评论 -
Hive 之 优化
转自:http://blog.sina.com.cn/s/blog_5745722a0102v34h.htmlHive优化总结优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特转载 2017-08-08 19:06:15 · 173 阅读 · 0 评论 -
Hive 之 日期函数
转自:http://www.jianshu.com/p/e30395941f9c1、日期函数UNIX时间戳转日期函数:from_unixtime()函数格式返回值说明from_unixtimefrom_unixtime(bigint unixtime[, string format])string转化UNIX时间戳转载 2017-08-08 17:47:58 · 1025 阅读 · 0 评论 -
Hive 之 入门环境搭建
转自:http://blog.csdn.net/u014726937/article/details/51983673Hive入门 Hive是一个数据仓库,用于存储海量格式化数据,方便开发人员对其使用SQL语言进行数据分析。 它的所有表中的数据存放在 hdfs 文件系统中,保证了数据的可靠性,安全性 它的表的描述信息 metastore(包括表字段转载 2017-08-14 14:13:20 · 178 阅读 · 0 评论 -
Hive 之 分区表 外部分区表 关联查询
转自:http://blog.csdn.net/u014726937/article/details/519848671.查看mysql中metastore数据存储结构Metastore中只保存了表的描述信息(名字,列,类型,对应目录)使用SQLYog连接itcast05 的MySQL数据库 查看Hive数据库的表结构: 2.建表(默认转载 2017-08-14 14:22:11 · 1158 阅读 · 1 评论 -
Hive之 load的使用注意事项
转自:http://www.cnblogs.com/tugeler/p/5133019.html类似Mysql的数据库概念:hive> CREATE DATABASE cui;hive> USE cui;创建表:CREATE TABLE test( first STRING, second STRING)默认记录和字段分隔符:\n转载 2017-09-26 14:10:22 · 3191 阅读 · 0 评论 -
Hive 之 内置函数
转自;http://www.yiibai.com/hive/hive_built_in_functions.html内置函数Hive支持以下内置函数:返回类型签名描述BIGINTround(double a)返回BIGINT最近的double值。BIGINTfloor(double a)返回最大BI转载 2017-09-26 11:01:51 · 169 阅读 · 0 评论 -
Hive 之 数据导出的方式
转子:http://blog.csdn.net/lifuxiangcaohui/article/details/40589881今天我们再谈谈Hive中的三种不同的数据导出方式。根据导出的地方不一样,将这些方式分为三种:(1)、导出到本地文件系统;(2)、导出到HDFS中;(3)、导出到Hive的另一个表中。为了避免单纯的文字,我将一步一步地用命令进行说明。一、转载 2017-09-15 17:30:30 · 217 阅读 · 0 评论 -
Hive 之 写入数据的方式
转子:http://blog.csdn.net/lifuxiangcaohui/article/details/40588929Hive的几种常见的数据导入方式这里介绍四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记转载 2017-09-15 17:29:10 · 3387 阅读 · 0 评论 -
Hive之 优化篇
转子:http://blog.csdn.net/preterhuman_peak/article/details/40649213优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特转载 2017-09-15 17:18:22 · 209 阅读 · 0 评论 -
Hive 之 Lateral View
转子:http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842938.htmlLateral View语法lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)*fromClause: FROM转载 2017-09-14 19:15:26 · 194 阅读 · 0 评论 -
Hive 之 查询显示列名 及 行转列显示
转自:http://blog.csdn.net/iquicksandi/article/details/8515453Hive默认查询不会显示列名, 当一个表字段比较多的时候,往往看不出值与列之间的对应关系,对日常查错及定位问题带来不便,应同事要求,看了hive CLI源码,做了下些许调整, 加入列头打印及行转列显示功能未开启行转列功能之前:hive>>转载 2017-08-28 14:01:39 · 692 阅读 · 0 评论 -
Hive 之 分区表,外部表,桶表
转自: http://chengjianxiaoxue.iteye.com/blog/21670361 受控表(managed table): hive中将创建的表和实际对应hdfs目录结构和文件相对应,如果删除hive中创建的表,对应hdfs的目录和文件将不复存在,这种表叫做受控表。 受控表(managed table)包括内部转载 2017-08-14 16:13:24 · 344 阅读 · 0 评论 -
Hive 内置函数之 ROW_NUMBER
转自:http://blog.csdn.net/u010080235/article/details/8971466假设一个场景:存在表user_score,该表的数据如下 idratescore1'0-4'102'0-4'403'0-4'304'0-4'20转载 2017-07-18 20:20:36 · 732 阅读 · 0 评论