Hive之字段拆解转多行

灵魂换稻米

已于 2023-04-23 14:59:09 修改

阅读量327

点赞数

文章标签： hive

于 2023-04-04 15:00:56 首次发布

本文链接：https://blog.csdn.net/qq_45626377/article/details/129952838

版权

问题背景及要求：

表中有一字段存在形如[a,b,c,...]的若干记录，要求按照','分隔符将字段拆解，并转换为多行

举例说明：

待拆解表
id	待拆解字段
1	[a,b,c]
2	[d,e]

已拆解表
id	带拆解字段	新字段
1	[a,b,c]	a
1	[a,b,c]	b
1	[a,b,c]	c
2	[d,e]	d
2	[d,e]	e

hive实现：

select *
from 库.表 
  lateral view explode(split(regexp_replace(待拆解字段,'\\[|\\]',''), ',')) tmp1 as 新字段

补充说明：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

灵魂换稻米

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hive篇

微信搜：import_bigdata，大数据领域硬核原创作者

08-12

1494

欢迎关注博客主页：https://blog.csdn.net/u013411339 欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于 CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚大数据系列文章链接： 2021年从零到大数据专家的学习指南(全面升级版) 2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇 2.

Hive知识点总结

wwwmgcom的博客

03-05

312

Hive 什么是Hive？ Hive是一个Apache提供的数据仓库的软件使用类SQL（Hql）对分布式存储的数据进行读取以及管理，Hive是基于Hadoop来使用的。底层会将sql转换成hadoop的MR来进行操作，hive执行效率较低，一般我们用它来进行离线处理，hive只提供读取功能 Hive中的数据倾斜：原因：1.key分布不均 2.业务数据本身的原因 3.建表考虑不周 4.某些sql语...

1 条评论您还未登录，请先登录后发表或查看评论

hive 回顾---字段拆分为多行+多列

挖掘+算法

05-05

4352

...

【SQL相关】Hive行列字符串的合并与拆分

cielo的博客

11-24

3050

Hive行列字符串的合并与拆分。

Hive 中把一行记录拆分为多行记录

DataShare

08-04

607

业务场景：统计每个小时视频同时在线观看人数，因后台的业务数据是汇总之后的，只有开始时间、结束时间，没有每小时的详细日志数据，无法直接进行统计，所以需要对每条业务数据进行拆分，来统计每个小时的同时数当然，如果有详细的日志数据也是直接可以统计的，但是正常情况下，日志数据会非常大，如果每个用户每30秒会产生一条数据，那么每天会产生大量的数据，如此大量的数据，很难长期保存。

hive sql 拆解字段

sun13047140038的博客

08-19

2007

在Hive SQL中，拆解字段通常涉及到字符串操作，如将一个包含多个部分的字符串拆解成多个独立的字段。2. SPLIT(str, delimiter)：使用SPLIT函数可以根据指定的分隔符将字符串拆分为一个数组，这对于将含有多个值的字符串拆分成独立的字段非常有用。你可以指定起始位置和要提取的长度。在Hive SQL中，利用这些字符串函数可以很灵活地拆解字段，从而从复杂的字符串中提取所需的信息。-- 输出: ["apple", "banana", "cherry"]-- 输出: 2023-08-18。

hive中如何将存在分隔符号的一列进行拆分，成为多行（可参考之前行转列，列转行笔记第三部分）

加油小白的博客

11-19

3002

hive中如何将存在分隔符号的一列进行拆分，成为多行

hive sql 拆解字段.docx

07-18

Hive SQL 拆解字段详解 Hive SQL 中的拆解字段是指将一个字段拆分成多个子字段，以便更好地分析和处理数据。在 Hive 中，可以使用多种函数来拆解字段，本文将详细介绍四种常用的函数：SPLIT、SUBSTRING_INDEX、...

HIVE复杂数据类型与行转列、列转行的使用

Im ok的博客哦

12-23

884

一、复杂数据类型在hive中使用复杂数据类型的优缺点好处：由于复杂数据类型的存储数据比基本数据类型要多，在存盘上存储可以连续存储，在查询等操作时可以减少磁盘IO。坏处：复杂数据类型可能会存在着数据的重复，而且有更大的导致数据不一致的风险。 hive中的复杂数据类型主要有array、map、struct三种，三种数据类型有其独特的使用场景。 1、ARRAY array即数组，array中的数据类型都是统一的，比如全为int，或者全为string。使用array中元素,访问数组中的某一

SQL|一个字段存放在多个数组如何进行拆（替换sql数据源为hive)

qq_41011449的博客

05-22

3213

nvl函数 LATERAL VIEW explode 必须上一个表完成之后重新select 重命名必须用as LATERAL VIEW json_tuple 必须是}不能是[ regexp_replace

Hive10---explode拆分多行

此心安处是吾乡

04-25

1691

Intro hive explode操作 import pyspark from pyspark.sql import SparkSession # 创建SparkSession对象，调用.builder类 # .appName("testapp")方法给应用程序一个名字；.getOrCreate()方法创建或着获取一个已经创建的SparkSession spark = SparkSession.builder.appName("pysaprk").getOrCreate() import pys

Hive行转列[一行拆分成多行/一列拆分成多列]

Allenzyg的博客

09-14

2514

hive有张表armmttxn_tmp，其中有一个字段lot_number，该字段以逗号分隔开多个值，每个值又以冒号来分割料号和数量，如：A3220089:-40,A3220090:-40,A3220091:-40,A3220083:-40,A3220087:-40,A3220086:-40,A3220088:-40,A3220084:-40,A3220081:-40,A3220082:-40,A3220092:-40,A3220093:-40,A3220085:-40,A3220094:-40。

Hive中行拆分操作

但行好事，莫问前程。

09-20

1797

0.背景在使用Hive的时候有时候会遇到需要将一行“拆分”成多行的操作，如下。原始数据格式，表名为student_table class student_array 1 [Tom,Jone] 2 [Lily,lucy] 目标数据格式 class student_name 1 Tom 1 Jone 2 Lily 2 ...

Hive中的行转列和列转行

热门推荐

hutao_ljj的博客

11-23

1万+

列转行 1、使用explode或posexplode方法 1.1 对单列实行列转行 explode 配合 lateral view 使用 -- 测试数据 with temp as(select 1 as id ,'a,b,c' as name union select 2 as id ,'d,e,f' as name) 测试数据如下： select id,name,s_name from temp lateral view explode(s

Hive SQL——explode拆分函数&多行(列)合并为一行(列)&reflect函数

qq_52421831的博客

10-13

4757

Hive SQL —— explode 拆分函数

Hive 行列转换

weixin_30745641的博客

12-21

337

一、列转行 (对某列拆分，一列拆多行) 使用函数：lateral view explode(split(column, ',')) num eg: 如表：t_row_to_column_tmp 数据如下，对tag列进行拆分 SQL代码： select id,tag,tag_new from t_row_to_column_tmp lateral view explode(spl...

Hive的列分隔符和行分隔符

Carter的程序人生

04-13

9973

在创建Hive表时，默认行分隔符"^A"，列分隔符"\n"，这两项也是可以设置的。在实际开发中，一般默认使用默认的分隔符，当然有些场景下也会自定义分隔符。创建表1： spark-hive use test_db; # 创建外部表 CREATE EXTERNAL TABLE test_tb ( user_id bigint COMMENT '用户ID', user_name string ...

hive对字段进行行转列函数

09-12

### 回答1：可以使用Hive中的TRANSPOSE函数对字段进行行转列操作。该函数将行数据转换为列数据，可以方便地进行数据透视和分析。使用方法如下： SELECT TRANSPOSE(col_name) FROM table_name; 其中，col_name为需要进行行转列的字段名，table_name为数据表名。 ### 回答2： Hive是一个基于Hadoop的数据仓库工具，它提供了一种将结构化的数据映射到Hadoop分布式文件系统(HDFS)中的方法。Hive支持使用HiveQL查询语言进行数据分析和数据查询。在Hive中，要对字段进行行转列函数操作，可以使用HiveQL中的"pivot"操作。Pivot操作是将行的数据转换为列的过程，可以通过对数据进行透视操作来实现。首先，需要使用HiveQL的"SELECT"语句选择要进行行转列操作的数据。然后，使用HiveQL的"PIVOT"关键字指定要转换为列的字段名称。通过指定"PIVOT"关键字后的字段名，Hive会将这些字段的值作为新的列进行展示。最后，可以使用"GROUP BY"语句对转换后的数据进行聚合操作。例如，假设我们有一个包含日期、地点和销售额的数据表。我们想要将地点作为列，日期作为行，并以销售额填充单元格。以下是一个示例HiveQL查询语句： ``` SELECT * FROM (SELECT date, location, sales FROM sales_table) src PIVOT (SUM(sales) FOR location IN ('location1', 'location2', 'location3')) as result ``` 上述查询语句中，首先选择了date、location和sales字段。然后，通过"PIVOT"关键字指定了要转换为列的字段"location"，并使用"SUM"函数对sales字段进行聚合操作。最后，通过"GROUP BY"语句对转换后的数据进行分组。通过以上的HiveQL查询，我们可以将原始的行数据转换为列数据，并按照指定的格式显示。这样，我们就可以更方便地进行数据分析、数据查询和报表生成等操作。 ### 回答3： Hive是一种基于Hadoop的数据仓库工具，它提供了一种SQL接口，用于查询和分析大规模的数据。在Hive中，可以使用TRANSPOSE函数对字段进行行转列操作。 Hive中的TRANSPOSE函数用于将一列数据转换成多行数据，适用于将宽表转换为长表的场景。TRANSPOSE函数需要指定需要转置的列以及转置后生成的新列的名称。假设我们有一个包含用户ID和用户偏好的表，其中用户ID为主键，用户偏好分为三个字段：音乐偏好、电影偏好和运动偏好。现在我们想将这三个字段转换成一列，其中列名为偏好类型，值为用户偏好的具体内容。可以使用TRANSPOSE函数实现这个转换过程。具体的操作如下： 1. 创建一个新表，包含用户ID和偏好类型两个字段。 2. 使用INSERT INTO SELECT语句将原表中的用户ID和三个偏好字段的值插入到新表中。 3. 使用TRANSPOSE函数对偏好字段进行行转列操作，将其转换成多行数据，其中每一行包含用户ID和一个偏好类型的值。 4. 最后，将转置后的数据插入到新表的偏好类型字段中。通过以上操作，我们就可以将原表中的偏好字段行转列成一列，方便后续的查询和分析操作。总而言之，Hive提供了TRANSPOSE函数来对字段进行行转列操作，可以方便地将宽表转换为长表，便于数据的处理和分析。