kettle案例5.4.2–数据检验—数据规范化处理
由于数据源系统分散在各个业务线上,不同业务线对于数据的要求、理解和规范也不同,这样就会导致对于同一数据对象的描述规格完全不同,因此在数据清洗的过程中需要将统一数据规范的数据抽取出来进行规范处理
为了提高数据的可读性及合理性,企业会要求数据遵守一定的规范,具体规范如下:
- 电子邮箱的地址必须是有效的格式;
- 输入的数据都必须是大写/小写;
- 日期必须是dd-mm-yyyy的格式;
- 电话号码必须是xxx-xxxx-xxxx的格式;
- 用户的年龄必须大于18岁;
- 数值不能超过预定义的值。