Hive取非Group by字段数据的方法

最新推荐文章于 2022-01-12 14:22:03 发布

JNSimba

最新推荐文章于 2022-01-12 14:22:03 发布

阅读量6.8k

点赞数 4

分类专栏： Hive 文章标签： HIve groupby

Hive 专栏收录该内容

16 篇文章 2 订阅

订阅专栏

遇到这么一个需求，输入数据为一个ID对应多个name，要求输出数据为ID是唯一的，name随便取一个就可以。

执行以下hive ql语句：

SELECT 
  sid,  class_id 
FROM
  table2 
GROUP BY sid ;

会报错：

FAILED: Error in semantic analysis: Line 1:18 Expression not in GROUP BY key 'class_id'

查了一下，HIVE有这么一个函数collect_set，类似于mysql的group_concat函数，把每个分组的其他字段，按照逗号进行拼接，得到一个最终字符串：

 
         1 
       
         2 
       
         3 
       
        collect_set 
        ( 
        col 
        ) 
       
         返回类型： 
        array 
       
         解释：返回一个去重后的对象集合

将上述的QL语句改一下：

select sid,collect_set(class_id) from table2 group by sid;

结果是这样的：

1 [11,12,13]
2 [11,14]
3 [12,15]
4 [12,13]
5 [16,14]
7 [13,15]

这个时候，我们就可以针对第二列做一些计数、求和操作，分别对应到Hive的聚合函数count、sum。

对应到本文的目的，直接从数组获取第一个元素就达到目的了，这样做：

select sid,collect_set(class_id)[0] from table2 group by sid;

结果如下：

总结：

Hive不允许直接访问非group by字段；
对于非group by字段，可以用Hive的collect_set函数收集这些字段，返回一个数组；
使用数字下标，可以直接访问数组中的元素；

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

JNSimba

关注关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Hive Sql之取非Group by字段数据的方法

南风知我意

05-12

1052

执行以下hive ql语句： SELECT sid, class_id FROM table2 GROUP BY sid ; 会报错：FAILED: Error in semantic analysis: Line 1:18 Expression not in GROUP BY key 'class_id' collect_set( col:any ) 返回一个数组：解释：返回一个去重后的对象集合 collect_list( col:any) 返回一个数组：解释：返回一个不去

hive group by 导致的数据倾斜问题

m0_57468722的博客

10-06

545

Group By 默认情况下，Map阶段同一Key数据分发给一个reduce，当一个key数据过大时就倾斜了。但并不是所有的聚合操作都需要在Reduce端完成，很多聚合操作都可以先在Map端进行部分聚合，最后在Reduce端得出最终结果。 1)开启Map端聚合参数设置 (1)是否在Map端进行聚合(默认为true) set hive.auto.convert.join = true; ...

2 条评论您还未登录，请先登录后发表或查看评论

Expression not in GROUP BY key

weixin_57551874的博客

05-19

4436

SemanticException [Error 10025]: Line 4:0 Expression not in GROUP BY key 'device_type' select user_id , device_num , device_type , os ， os_version , manufacturer, carrier , network_type, area_code , count(1) launch_count from dwd_nshop.dwd_nshop_actlog_la

【Hive报错】Hive报错Expression Not In Group By Key解决方法

Koma_zhe的学习笔记

11-10

2万+

SQL例如以下会报错： select sum(time) as time, roadCoding, upstreamOrDownstream from historicalroaddata where ... 报以下roadcoding、upstreamOrDownstream的错误 FAILED: SemanticException [Error 10025]: Line 1:12 Expression not in GROUP BY key ‘roadcoding′ 解决方法：使用collect

为什么Hive中的group by后面不能使用字段别名？

雷恩Layne

04-19

3046

为什么Hive中的group by后面不能使用字段别名呢？看了这篇文章你将一目了然。文章目录1. 案例说明2. 分析原因3. 解决办法4. 执行效率5. 总结 1. 案例说明我们以一个例子来说明。（1）数据创建business.txt，内容如下： jack,2017-01-01,10 tony,2017-01-02,15 jack,2017-02-03,23 tony,2017-01-04,29 jack,2017-01-05,46 jack,2017-04-06,42 tony,2017-01-

hive中groupby优化_Hive 查询优化总结

weixin_39606137的博客

12-20

354

一、join优化Join查找操作的基本原则：应该将条目少的表/子查询放在Join操作符的左边。原因是在Join操作的Reduce阶段，位于Join操作符左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join，且所有参与join的表中其参与join的key都相同，则会将所有的join合并到一个mapred程序中。案例：SELEC...

hive之group by详解

热门推荐

我的博客

05-10

5万+

有部分是转自:https://blog.csdn.net/lzm1340458776/article/details/43230517hive distribute by 和group by 的区别：group by是对检索结果的保留行进行单纯分组，一般总爱和聚合函数一块用例如AVG（），COUNT（），max（），main（）等一块用。 group by操作表示按照某些字段的值进行分组，有相同的...

Hive 错误FAILED: SemanticException [Error 10025]: Line 1:40 Expression not in GROUP BY key

蒯厅博客

11-18

2816

Hive 错误 Expression not in GROUP BY key Hive 支持基本的SQL , 但是 Hive 与 MySQL 还是有些许区别的。其中在开始使用 Hive 的时候会遇到 Expression not in GROUP BY key 的错误，错误原因如下：问题原因在 Group by 子句中，Select 查询的列，要么需要是 Group by 中的列，要么得是用聚合函数（比如 sum、count 等）加工过的列。不支持直接引用非 Group by 的列。这一点和 M

解决 FAILED: SemanticException [Error 10025]: Expression not in GROUP BY key

alongwaywith的博客

10-25

5915

这个是hive中group by 的使用错误，注意，如果你就是要这样搜索的话，那么collect_set()函数包围非group by字段后即可使用。实际上group by 分类的字段应该来源于上面的select ，如 select id ,name那么你group by的字段只能是 id和name ...

Hive 错误 Expression not in GROUP BY key

迎难而上

03-05

3万+

参考文章： https://help.aliyun.com/knowledge_detail/54250.html Hive 支持基本的SQL , 但是 Hive 与 MySQL 还是有些许区别的。其中在开始使用 Hive 的时候会遇到Expression not in GROUP BY key 的错误，错误原因如下：问题原因在 Group by 子句中...

Hive 报错: Expression not in GROUP BY key ‘xxx‘

日格一物

08-26

1万+

报错信息: Expression not in GROUP BY key ‘xxx’ 报错含义: 字段 ‘xxx’ 没有在 group by 中产生原因: 某些字段 ‘xxx’, 在 select 后的字段中出现, 却没有在 group by 后的字段中出现; 如下 sql 会报错, 因为, c 字段没有出现在 group by 后面 select a, b, c from table_a group by a, b Hive 编程指南中指出 : GROUP BY 语句通常会和聚合函数一起使用,按

关于hive报错expression not in group by key ‘.....‘

tutouxiaocaiji的博客

01-12

1872

hive中在做两个select语句相除的时候，一直报错expression not in group by key ‘…’。注：上面的图片是正确的语句起初错误的原因是第一个select语句我没有用sum进行每个字段的求和，而是后面用where筛选了条件为1，然后再嵌套select语句进行求和。后来报错就是说没有group by,where后面的条件。后来干脆分字段直接求和，避免了where和group by的使用。也就没这错误了。 ...

Hive中group by 提示Expression Not In Group By Key的解决办法

kamisamak的博客

11-22

2206

现象 hive中group by的时候 select stu.s_name,sum(sc.s_score) from score sc left join student stu on stu.s_id = sc.s_id group by sc.s_id; 会提示： Error: Error while compiling statement: FAILED: Sema...

hive中group by 提示Expression Not In Group By Key的解决办法

似水流年

09-28

3万+

一 hive中group by 提示Expression Not In Group By Key 二异常原因: hive中group by的时候 hive> select count(market) province ,market from market_table ; 会提示： FAILED: SemanticExcep

[Err] 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause 的问题 MySQL

Gblfy_Blog

02-22

226

show variables like "sql_mode"; set sql_mode=''; set sql_mode='NO_ENGINE_SUBSTITUTION,STRICT_TRANS_TABLES';

Hive报错"Expression not in GROUP BY key"的解决方案

chinamcafee的专栏

11-30

4万+

执行Hive语句遇到"Expression not in GROUP BY key"的快速解决方法

2020.10.12 hive报错Expression Not In Group By Key [value]的处理

超可爱慕之

10-12

414

hive Expression Not In Group By Key I create a table in HIVE. It has the following columns: id bigint, rank bigint, date string I want to get avg(rank) per month. I can use this command. It works. select a.lens_id, avg(a.rank) from tableA a group by a.len

hive还原用groupby分组之后的字段