数据清洗小记(9):分类进行字符串转日期(某日期字段存在多类格式处理)

在数据清洗过程中,遇到一个varchar2格式的时间字段,包含多种日期格式。通过使用SQL的case函数,对不同格式的数据进行分类处理和转换,以达到统一的标准。文章通过创建实验表、插入模拟数据,展示了处理过程,并分享了相关的小知识点。
摘要由CSDN通过智能技术生成

原创作品,出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任。

深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/46513855

 

【背景】

在清洗数据时,发现源端系统某时间类字段下的数据存在三类格式,怀疑这是源端接受自三个或更多系统的来源数据格式不统一造成的。之所以出现这种情况,因为源端该时间类字段竟然用的varchar2格式,可能源端系统在接受不同系统上传数据时没做规范造成的。需要把该字段下的数据按分类进行处理、清洗。

 

【解决】

我们可以利用case函数,对不同类型的数据进行分类处理,例如:

select 
CASE WHEN 条件1 THEN
    处理方式1
WHEN 条件2 THEN
    处理方式2
ELSE
    处理方式3
END 命名 from 源端表;

【实验】

创建实验表,如下:

create table 实验表 
(ID varchar2(32) default sys_guid(),
DATE_TIME varchar2(50),
MEMO varchar2(32)
);

插入实验数据,模拟出三类时间格式类型,如下:

insert into 实验表 (DATE_TIME,MEMO) values('2017-08-11 23.0:18.0:30.0','1');
insert into 实验表 (DATE_TIME,MEMO) values('2015-05-27 12.0:24.0:20.0','1');
insert into 实验表 (DATE_TIME,MEMO) values('20140409 11:00:12 PM','2');
insert into 实验表 (DATE_TIME,MEMO) values('20120401 10:10:00 AM','2');
insert into 实验表 (DATE_TIME,MEMO) values('2013 02 08 08:12:23:000 PM','3');
insert into 实验表 (DATE_TIME,MEMO) values('2015 01 31 09:00:00:000 PM','3');
commit;
select * from 实验表;

创建目标表,如下:

create table 目标表
(ID VARCHAR2(32),
RESULT_TIME DATE,
LEVEL_NUMBER VARCHAR2(32)
);</
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值