Hive数据仓库行转列

查了很多资料发现网上很多文章都是转发和抄袭,有些问题。这里分享一个自己项目中使用的行转列例子,供大家参考。代码如下:

SELECT
  my_id,
  nm_cd_map['A'] AS my_cd_a,
  nm_cd_map['B'] AS my_cd_b,
  nm_cd_map['C'] AS my_cd_c,
  nm_num_map['A'] AS my_num_a,
  nm_num_map['B'] AS my_num_b,
  nm_num_map['C'] AS my_num_c
FROM
  (
    SELECT
      t.my_id,
      STR_TO_MAP(my_nm_cds,';',':') AS nm_cd_map,
      STR_TO_MAP(my_nm_nums,';',':') AS nm_num_map
    FROM
      (
        SELECT
          my_id,
          CONCAT_WS(';',COLLECT_LIST(CONCAT(my_nm,':',my_cd))) AS my_nm_cds,
          CONCAT_WS(';',COLLECT_LIST(CONCAT(my_nm,':',my_num))) AS my_nm_nums
        FROM
          (
            SELECT '1' AS my_id,'A' AS my_nm,'D01' AS my_cd,19 AS my_num
            UNION ALL
            SELECT '1' AS my_id,'B' AS my_nm,'D04' AS my_cd,18 AS my_num
            UNION ALL
            SELECT '1' AS my_id,'C' AS my_nm,'D02' AS my_cd,17 AS my_num
            UNION ALL
            SELECT '2' AS my_id,'A' AS my_nm,'D03' AS my_cd,16 AS my_num
            UNION ALL
            SELECT '2' AS my_id,'B' AS my_nm,'D05' AS my_cd,15 AS my_num
            UNION ALL
            SELECT '2' AS my_id,'C' AS my_nm,'D06' AS my_cd,14 AS my_num
          )
        GROUP BY my_id
      ) t
  ) t
WHERE 1=1;

如果是在SparkSQL或Presto平台,或者阿里云的MaxCompute平台,还可使用如下方式:

-- 其实也可使用CONCAT然后STR_TO_MAP的方式,或者用MAP_FROM_ARRAYS,再或者用数组排序后ARRAY[n] AS的方式
SELECT
  my_id,
  nm_cd_map['A'] AS my_cd_a,
  nm_cd_map['B'] AS my_cd_b,
  nm_cd_map['C'] AS my_cd_c,
  nm_num_map['A'] AS my_num_a,
  nm_num_map['B'] AS my_num_b,
  nm_num_map['C'] AS my_num_c
FROM
  (
    SELECT
      t.my_id,
      MAP_FROM_ENTRIES(COLLECT_LIST(nm_cd)) AS nm_cd_map,
      MAP_FROM_ENTRIES(COLLECT_LIST(nm_num)) AS nm_num_map
    FROM
      (
        SELECT
          my_id,
          my_nm,
          my_cd,
          my_num,
          STRUCT(my_nm,my_cd) AS nm_cd,
          STRUCT(my_nm,my_num) AS nm_num
        FROM
          (
            SELECT '1' AS my_id,'A' AS my_nm,'D01' AS my_cd,19 AS my_num
            UNION ALL
            SELECT '1' AS my_id,'B' AS my_nm,'D04' AS my_cd,18 AS my_num
            UNION ALL
            SELECT '1' AS my_id,'C' AS my_nm,'D02' AS my_cd,17 AS my_num
            UNION ALL
            SELECT '2' AS my_id,'A' AS my_nm,'D03' AS my_cd,16 AS my_num
            UNION ALL
            SELECT '2' AS my_id,'B' AS my_nm,'D05' AS my_cd,15 AS my_num
            UNION ALL
            SELECT '2' AS my_id,'C' AS my_nm,'D06' AS my_cd,14 AS my_num
          )
      ) t
    GROUP BY my_id
  ) t
WHERE 1=1;
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
浅谈数据仓库和⼤数据 浅谈数据仓库和⼤数据 前⾔ 前⾔ 数据仓库是今年来适应利⽤数据⽀持决策分析的强烈需求⽽发展起来的数据库应⽤技术,诚然,数据仓库以数据库为基础,但是他在需求、 客户、体系结构与运⾏机制等⽅⾯与数据库存在重⼤的不同,Kimball说:"我们花了⼆⼗年的时间往数据库中加⼊数据,现在该是拿出来使⽤ 的时候了。" ---摘⾃数据仓库⼯具箱:维度建模(第⼆版) 1.数据仓库理解 数据仓库理解 根据笔者⾃⼰的理解,数据仓库是⼀个抽象的概念,⽽实现的载体则是我们常见的各种数据库表。⽐如传统⾏业中⽤到的Oracle、 Teradata(简称TD)、GreenPlum(简称GP),互联⽹⾏业中⽤到的Hive、Spark。它的⼀个主要应⽤点的体现就是我们企业中建设的数据平台 2.数据平台 数据平台&数据仓库的组成 数据仓库的组成 先宽泛的讲述下数据平台和数据仓库的组成 数据平台可划分为如下⼦平台:数据同步平台、数据仓库、调度平台、元数据管理平台、即席查询平台、数据可视化平台、数据质量检测系 统 数据仓库由于是⼀个抽象的概念所以可以简单的理解为不同粒度的数据层,⽐如:数据缓冲层(存放当⽇增量数据)、数据明细层(存放最全的 明细数据)、数据模型层(轻粒度的数据汇总以及模型设计,这个时候需要设计相应的主题)、数据集市层(⼀般就是⼀些宽表,包含多维度和指 标,⽅便⽤来做多维分析)、数据应⽤层(主要是开放给业务侧使⽤,多存放粗粒度的数据报表) 每个公司对每层的命名不⼀样,所以就不⽤什么ods,dw等来标识各个层级。 3.数仓和⼤数据的关系 数仓和⼤数据的关系 在写对数仓的理解的时候其实已经点出了数仓和⼤数据的关系,现在讲⼀下我个⼈理解的数仓演变历史以及为什么要⽤⼤数据来实现数仓。 3.1 数仓的过去 数仓的过去 数据仓库在很早的时候就被数据仓库之⽗Inmon 提出来了,按我的理解,很早的时候主要是对⾃⼰企业内部业务数据的⼀个分析决策,⽤⼀ 些传统的关系型数据库为载体,加上Kettle、Informatica、DataStage等ETL⼯具以及Biee、smartBi等报表⼯具来⽀撑企业⾃⼰的数据仓库 建设。其服务⽬标是部分企业⾼管、市场⼈员、运营⼈员等。 3.2 数仓的现在 数仓的现在 数据仓库在现在的应⽤已经远⾮以前的应⽤范围,其区别主要体现在⼀下⼏点: 1.数据源多样化 以前的数据源可能多数是来⾃企业的交易数据,但是现在则会由以下来源组成,⽐如:交易数据、⾏为数据、竟对数据、CRM、 财务数 据等 2.数据量暴涨 由于以前数据来源单⼀,数据量相⽐较现在增长不会那么快,多数的中⼩型企业使⽤⼀个⾼配的⼩机+关系型数据库即可满⾜数仓的计算 资源需求。但是现在由于数据源的多样化,导致数据量暴涨,单机的计算已经满⾜不了现有资源,但是MPP架构的数据库⼜太贵(⽐如TD), ⽽且也⽆法满⾜企业处理⾏为⽇志数据的需求。这个时候⼤数据技术应运⽽⽣,以hadoop+hive的技术处理开始占据主流。尤其是互联⽹⾏ 业的迅速发展,对其有⼀定的带动性。 3.服务对象的不同 个⼈说的以前偏向于传统⾏业,他们的服务对象偏向于⾼管、运营、财务等职能⼈员。⽽现在则会有各种各样的服务对象,⽐如:⾼管、 运营、财务等职能⼈员关注的报表必不可少,除此之外还有产品、运营等⼈关注的竟对分析以及内部风控,反欺诈等线上系统以及推荐等系 统模块的接⼝调⽤ 3.3 数仓的未来 数仓的未来 ⽬前在国外已经有⼈提出了Data Lake和Data Vault的概念。让我们拭⽬以待是否可以在国内普及应⽤~ 总结 总结 之所以出现hadoop、spark等⼤数据处理技术,数据多样化以及对数据时效性越来越⾼占主要因素,成本也是其中的⼀个因素,但是个⼈认 为占⽐很⼩,因为区别仅仅在于到底是把钱花在了机器和系统上还是花在了⼈⼒上~ 下⾯简单的对传统⾏业以及互联⽹⾏业建设数据仓库的时候⽤到的⼀些⼯具做些总结 1.传统⾏业 数据库:Oracle、DB2、TD(MPP结构,列式存储)、GP(MPP结构,列式存储)、SybaseIQ(MPP结构,列式存储)、MySql Inforbright、 MsSql、等 ETL⼯具:Informatica、DataStage、Kettle、Automation(调度平台)、SSIS、企业内部调度⼯具等 可视化⼯具:Biee、tableau、Congons、Power BI等 2.互联⽹⾏业 离线仓库架构:Sqoop+hadoop+hive/spark+mysql/hbase+echarts/tableau/highchars 实时架构:flume+kafka+storm/spark streaming+hbase/redis+echarts/tableau/highc
### 回答1: 可以使用Hive中的TRANSPOSE函数对字段进行行转列操作。该函数将行数据转换为列数据,可以方便地进行数据透视和分析。使用方法如下: SELECT TRANSPOSE(col_name) FROM table_name; 其中,col_name为需要进行行转列的字段名,table_name为数据表名。 ### 回答2: Hive是一个基于Hadoop的数据仓库工具,它提供了一种将结构化的数据映射到Hadoop分布式文件系统(HDFS)中的方法。Hive支持使用HiveQL查询语言进行数据分析和数据查询。 在Hive中,要对字段进行行转列函数操作,可以使用HiveQL中的"pivot"操作。Pivot操作是将行的数据转换为列的过程,可以通过对数据进行透视操作来实现。 首先,需要使用HiveQL的"SELECT"语句选择要进行行转列操作的数据。然后,使用HiveQL的"PIVOT"关键字指定要转换为列的字段名称。通过指定"PIVOT"关键字后的字段名,Hive会将这些字段的值作为新的列进行展示。最后,可以使用"GROUP BY"语句对转换后的数据进行聚合操作。 例如,假设我们有一个包含日期、地点和销售额的数据表。我们想要将地点作为列,日期作为行,并以销售额填充单元格。以下是一个示例HiveQL查询语句: ``` SELECT * FROM (SELECT date, location, sales FROM sales_table) src PIVOT (SUM(sales) FOR location IN ('location1', 'location2', 'location3')) as result ``` 上述查询语句中,首先选择了date、location和sales字段。然后,通过"PIVOT"关键字指定了要转换为列的字段"location",并使用"SUM"函数对sales字段进行聚合操作。最后,通过"GROUP BY"语句对转换后的数据进行分组。 通过以上的HiveQL查询,我们可以将原始的行数据转换为列数据,并按照指定的格式显示。这样,我们就可以更方便地进行数据分析、数据查询和报表生成等操作。 ### 回答3: Hive是一种基于Hadoop的数据仓库工具,它提供了一种SQL接口,用于查询和分析大规模的数据。在Hive中,可以使用TRANSPOSE函数对字段进行行转列操作。 Hive中的TRANSPOSE函数用于将一列数据转换成多行数据,适用于将宽表转换为长表的场景。TRANSPOSE函数需要指定需要转置的列以及转置后生成的新列的名称。 假设我们有一个包含用户ID和用户偏好的表,其中用户ID为主键,用户偏好分为三个字段:音乐偏好、电影偏好和运动偏好。现在我们想将这三个字段转换成一列,其中列名为偏好类型,值为用户偏好的具体内容。可以使用TRANSPOSE函数实现这个转换过程。 具体的操作如下: 1. 创建一个新表,包含用户ID和偏好类型两个字段。 2. 使用INSERT INTO SELECT语句将原表中的用户ID和三个偏好字段的值插入到新表中。 3. 使用TRANSPOSE函数对偏好字段进行行转列操作,将其转换成多行数据,其中每一行包含用户ID和一个偏好类型的值。 4. 最后,将转置后的数据插入到新表的偏好类型字段中。 通过以上操作,我们就可以将原表中的偏好字段行转列成一列,方便后续的查询和分析操作。 总而言之,Hive提供了TRANSPOSE函数来对字段进行行转列操作,可以方便地将宽表转换为长表,便于数据的处理和分析。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值