kettle——实验二(去除含空值数据,裁剪字符串)

一、数据结构

网址信息 url,标题 title,发布 时间 post_time,内容 content

 

 二、实验目的

  1. title,content 字段含有空值,将含有空值的数据记录去除。
  2. id 为 2 的记录,其 post_time 属性值相比其他记录多了时分秒, 对该属性值进行修改,使得全体数据格式保持一致。

三、实验步骤

3.1、步骤概览

3.2、详细步骤

3.2.1、表输入,将MySQL中数据表导入到 kettle 当中

点击预览查看导入数据:

 

3.2.2 、过滤记录(去除空值记录)

将属性 title 和 content 的值为空的数据记录进行过滤,存留下来的数 据则不含空值。

 

 3.2.3、过滤记录,按post_time对数据记录进行分类处理

是否含有英文冒号。

 

3.2.4、剪切字符串

去除时间前面的文字并新增 post_time1 字段、去除时间前面的文字和时分秒并新增 post_time1 字段。

 

 

 3.2.5、剪切字符串

 

 3.2.6、移除 post_time

 

3.2.7、移除 post_time

 

 3.2.8、改名post_time1

 

 3.2.9、改名post_time1

 

 3.2.10、数据输出到MySQL

选择好目标表后,选择SQL,对表进行修改,新增属性。

 选择指定数据库字段后,选择输入的数据库字段。

 四、结果

 

 

 

Kettle转换过程中,默认情况下,空值会被当做NULL值处理。如果数据类型字段中存在NULL值,那么在计算时就会出现错误。为了处理空值,可以使用Kettle中的【替换NULL值】组件。比如在"2019年11月月考英语成绩.xls"文件中,如果学号为"201709007"的同学没有参加考试,根据规定考试分数将按0分处理,可以使用【替换NULL值】组件,将该同学的英语考试分数替换为"0"。\[1\] 另外,如果在数据中存在空值,可以使用Kettle过滤记录组件来去除空值数据记录。比如在实验中,可以使用过滤记录组件将属性title和content的值为空的数据记录进行过滤,保留下来的数据则不空值。\[2\] #### 引用[.reference_title] - *1* [kettle案例13-替换NULL](https://blog.csdn.net/zhang_xiaomeng/article/details/120985582)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [kettle——实验去除空值数据裁剪字符串)](https://blog.csdn.net/wake_up_42/article/details/127970852)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值