Hive
文章平均质量分 79
AllenGd
人生之奋斗,其苦无穷,其乐无穷。
展开
-
Hive insert插入数据与with子查询
当在hive中同时使用insert into(overwrite) table xx 与with子查询时候,需要将insert放在with as子查询后面(区分:与StarRocks不同,insert放在with as子查询前面)insert into 与 insert overwrite 都可以向hive表中插入数据,但是insert into直接追加到表中数据的尾部,而insert overwrite会重写数据,既先进行删除,再写入。注意: 当使用以下语句建表时,原创 2023-10-18 11:16:14 · 2283 阅读 · 0 评论 -
Hive行转列[一行拆分成多行/一列拆分成多列]
hive有张表armmttxn_tmp,其中有一个字段lot_number,该字段以逗号分隔开多个值,每个值又以冒号来分割料号和数量,如:A3220089:-40,A3220090:-40,A3220091:-40,A3220083:-40,A3220087:-40,A3220086:-40,A3220088:-40,A3220084:-40,A3220081:-40,A3220082:-40,A3220092:-40,A3220093:-40,A3220085:-40,A3220094:-40。原创 2023-09-14 14:07:19 · 2261 阅读 · 0 评论 -
Hive之窗口函数lag()/lead()
例如查询2023-01-10这天的数据,也就是从2023-01-10这天往前数三天,看这三天的数据中amount是否连续增长,表中1001就不是,1002则符合。通过这两个函数可以在一次查询中取出同一字段的前N行的数据(lag)和后N行的数据(lead)作为独立的列,从而更方便地进行进行数据过滤,该操作可代替表的自联接,且效率更高。表示lag()与lead()操作的数据都在over()的范围内,里面可以使用以下子句。lead()函数与lag()函数相反,用于统计窗口内往下第n行值。2、比较相邻行的数据。原创 2023-07-26 14:16:10 · 6522 阅读 · 2 评论 -
hive表新增字段,指定新增字段位置,删除字段
经验证,hive中修改字段顺序并没有将字段对应的值移动,只是单纯的修改字段名,如果是空表(没有数据),可以使用以上两步;其中CASCADE选项为选填的字段,但是对于分区表,一定要加上,否则其历史分区的元数据信息(metadata)将无法正常更新,导致访问历史分区时会报莫名的错误。背景:项目中,客户使用hive内表,由于逻辑变更,原hive表结构需要调整,新增字段。如果已经添加了字段,可以修改字段时,在修改字段名时带上,在修改回来。实际上,使用alter语句,把保留的字段全部列出来,删除的字段不要列出来。原创 2023-04-23 21:01:59 · 5996 阅读 · 0 评论 -
Hive常见问题 unable to create manager for [/var/log/hive/operation_logs/xxxxx
关联查询执行sqoop命令,hive sql的时候,先报一堆错,然后执行job,报错截图如下:异常原因:mapreduce将数据量小的表识别成了大表,数据量大的识别成小表,将数据量大的表加入到内存,导致程序异常,但并不影响执行结果原创 2022-12-06 17:20:56 · 754 阅读 · 0 评论 -
hive压缩和存储
1.1 Hadoop源码编译支持Snappy压缩1.1.1资源准备1.CentOS联网配置 CentOS能连接外网。Linux虚拟机ping www.baidu.com是畅通的注意:采用 root角色编译,减少文件夹权限出现问题2.jar包准备(hadoop源码、JDK8、maven、protobuf)(1)hadoop-2.7.2-src.tar.gz(2)jdk-8u144-linux-x64.tar.gz(3)snappy-1.1.3.tar.gz(4)apache原创 2020-06-03 18:03:21 · 319 阅读 · 0 评论 -
Hive之20个常用函数
1. 字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:2. 字符串反转函数:reverse语法: reverse(string A)返回值: string说明:返回字符串A的反转结果举例:3. 字符串连接函数:concat语法: concat(string A, string B…)返回值: string说明:返回输入字符串连接后的结果,支持任意个输入字符串举例......原创 2020-05-15 14:55:16 · 1604 阅读 · 0 评论 -
Hive之企业优化
1.1 Fetch 抓取Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如:SELECT * FROM employees;在这种情况下,Hive 可以简单地读取 employee 对应的存储目录下的文件,然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more,老版本 hive默认是 minimal,该属性修改为 more 以后,在全局查找、字段查原创 2020-05-14 16:29:41 · 251 阅读 · 0 评论 -
Hive之系统内置函数&自定义函数(UDF、UDAF、UDTF)介绍和案例(附带完整代码)、IDEA运行Hive
1.1 系统内置函数1.查看系统自带的函数hive (default)> show functions;2.显示自带的函数的用法hive (default)> desc function upper;3.详细显示自带的函数的用法hive (default)> desc function extended upper;1.2 自定义函数1)Hive 自带了一些函数,比如:max/min 等,但是数量有限(大概二、三百个),自己可以通过自定义 UDF来方便的原创 2020-05-13 12:31:34 · 4341 阅读 · 0 评论 -
Hive之查询JOIN、排序(order by、sort by、distribute by、cluster by)、分桶&分桶抽样查询、窗口函数及案例
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select查询语句语法:[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only availablestarting with Hive 0.13.0)SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_re原创 2020-05-11 18:51:36 · 2027 阅读 · 0 评论 -
Hive集群安装(3个节点)-基于Hadoop
接我上一篇文章《Hadoop集群安装(3个节点)》,写上篇文章以及本篇文章的原因是:使用NiFi解决两个需求,需求一:导出MySQL数据转换为Json串并保存到本地需求二:导出Hive数据转换为csv并保存到HDFS需求一还是很容易实现的,只需要安装NiFi(下篇文件介绍安装&使用)、MySQL就可以实现了。由于是在外做项目(青岛RRS物流),没有在公司那么方便,虽然公司也...原创 2020-04-26 10:17:18 · 6823 阅读 · 5 评论 -
Hive的4种导入和3种导出方式
接上篇文章《Hive集群安装》一、使用beeline连接hive1. 启动Hadoop:start-dfs.sh、start-yarn.sh[root@node4 hadoop-2.6.4]# sbin/start-dfs.sh[root@node4 hadoop-2.6.4]# sbin/start-yarn.sh2. 连接hive[root@node4 apache-h...原创 2020-04-29 20:33:41 · 2369 阅读 · 0 评论 -
Hive之DML数据操作(重点)
1.1 数据导入1.1.1 向表中装载数据(Load)1.语法hive> load data [local] inpath '/opt/data/student.txt' [overwrite] into table student[partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据到 hive 表(复制);否则从 HDFS 加载数据到 hive 表(移动)(3)inpath:表示加载数据的路原创 2020-05-09 17:40:00 · 228 阅读 · 0 评论 -
Hive之DDL数据定义(重点)
一、创建数据库1)创建一个数据库,数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加 if not exists 判断。(标准写法)hive (default)> create database db_hive;FAILED: Execution Error, return code 1 from org.apac原创 2020-05-09 14:34:44 · 1054 阅读 · 0 评论 -
Hive数据类型&类型转换
1. 基本数据类型 Hive数据类型 Java 数据类型 长度 例子 TINYINT byte 1byte 有符号整数 20 SMALINT short 2byte 有符号整...原创 2020-05-08 14:34:46 · 7769 阅读 · 0 评论 -
Hive常用交互命令&属性配置
一、Hive常用交互命令1. 使用hive –help命令查看有哪些交互命令 which: no hbase in (/usr/java/jdk1.8/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/opt/module/hive/apache-hive-2.1.0-bin/bin:/opt/module/hadoop...原创 2020-05-08 13:38:12 · 1172 阅读 · 0 评论