hive
讲解hive的使用与原理
橙子园
落地生根,长成参天大树
展开
-
【大数据】hive将表中数据分组、然后将每行数据的两个字段拼接成json字符串,放到array里
将表中数据分组、然后将每行数据的两个字段拼接成json字符串,放到array里原创 2021-09-13 17:35:24 · 1872 阅读 · 0 评论 -
hive判断空字符串数组和空数组
hive空字符串数组和空数组空字符串数组 :array(’’)空数组:array()如果想查找表中的空字符串数组:方法:可以使用查找数组中的第一个值是否为空字符串select classify from table where classify[0]='';想查找表中空数组:方法:使用size判断数据大小是否为0select classify from table where size(classify)=0;......原创 2021-12-24 18:37:08 · 5858 阅读 · 1 评论 -
【大数据】hive使用split函数注意事项(此处可能有坑,初学者容易出错)
注意:我们经常会使用split对字符串做切分,但要注意一点,当原来的值为空值时,容易产生大小为1的空字符串数组[""],在我们查询时,它和空数组[]输出来是很相似的,但它的大小却是1,如果我们再根据array的size判断做一下操作时,很可能出现意想不到的错误。例如:one_cate_name工程科技哲学与人文科学;医药卫生科技社会科学ISELECT split(one_cate_name, ";") as split_name, size(split(one_原创 2022-01-14 14:53:40 · 2854 阅读 · 0 评论 -
hive在hue上使用udf时报错
报错信息:Error while compiling statement: FAILED: SemanticException [Error 10014]: line 1:55 Wrong arguments ‘zw_category_two’: No matching method for class com.medbook.assistant.ArrayIntegrationUDF with (array, array). Possible choices: FUNC(struct<>,原创 2022-01-14 10:55:51 · 2917 阅读 · 0 评论 -
【大数据】Hive主流文件存储格式对比
Hive 主流文件存储格式对比1、存储文件的压缩比测试1.1 测试数据https://github.com/liufengji/Compression_Format_Datalog.txt 大小为18.1 M1.2 TextFile创建表,存储数据格式为TextFilecreate table log_text (track_time string,url string,session_id string,referer string,ip string,end_user_原创 2022-01-18 15:51:36 · 1629 阅读 · 7 评论 -
【大数据】Hive可视化工具dbeaver
Hive可视化工具dbeaver1、dbeaver基本介绍dbeaver是一个图形化的界面工具,专门用于与各种数据库的集成,通过dbeaver我们可以与各种数据库进行集成通过图形化界面的方式来操作我们的数据库与数据库表,类似于我们的sqlyog或者navicat。2、下载dbeaver我们可以直接从github上面或者官网下载我们需要的对应的安装包即可https://github.com/dbeaver/dbeaver/releaseshttps://dbeaver.io/download/3原创 2022-02-05 12:15:49 · 20511 阅读 · 4 评论 -
【大数据】关于hive中删除操作及HDFS回收站管理腾出空间的实操
一、删除删除hive数据时,首先明确你使用删除数据还是连同表结构也要删除,如果只是要删除数据可以选择truncate来清空表中的数据,如果要对表进行删除,首先要考虑该表是内部表还是外部表。如果是外部表要确认数据是否还需要使用,如果不需要使用了可以直接使用HDFS命令对目录进行删除。查询内、外部表有两个方法:方法一:hive shell中执行describe extended tablename; 查看表的详细信息,外部表 tableType 字段会显示 EXTERNAL_TABLE,内部表 t原创 2022-02-17 10:11:38 · 6849 阅读 · 0 评论