用SQL进行多值列拆分成二值列的一个实现

在进行数据分析的时候,往往需要把数据表格中的多值列拆分成二值列。如图1中的表A所示,fruits为一个多值列,值可以是不同的水果名字,表明某个以ID作为标识的人吃水果的记录。现在的需求是要把是否吃了什么具体水果拆成多个列,最终如表B所示。在这个例子中,吃水果的记录还有重复,所以需要把重复的记录去掉。

具体来说,可以将这个任务拆分成多个步骤,由不同的SQL select语句完成。如图2所示。这儿使用的数据库是DB2。


图1


图2

1. 拆分列

从表A到A1的过程重点是需要将每一行中的水果名字转化成相应新列的0/1值。

select id, INSTR(fruits, 'apple') as apple, INSTR(fruits, 'banana') as banana
  from A;


2. 去重

可以看到,id为3的记录重复出现了。因此需要用group by去掉重复的。这次的查询是基于上一次的结果,因此我们用with将上一次的查询包含进来。

with q1 as (
  select id, INSTR(fruits, 'apple') as apple, INSTR(fruits, 'banana') as banana
  from A
)
select *
  from q1
  group by id, apple, banana;


3. 整合行

A2中,id为2的记录出现了2次,可以把相应的列的值整合起来。同样用with将第二次的查询包含进来。

with q1 as (
  select id, INSTR(fruits, 'apple') as apple, INSTR(fruits, 'banana') as banana
  from A
), q2 as (
  select *
  from q1
  group by id, apple, banana
)
select id, sum(apple) as apple, sum(banana) as banana
  from q2
  group by id;



  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值