【产品规划】基于元数据生成质量检查规则(系列三)

上一篇文章中,阐述了实现一个智能化数据清洗工具的思路,其中最关键的是自动构建数据质量检查规则。自动生成数据质量检查规则的基本思路如下:

  • 构建质量检查规则模板库。根据项目过往经验,分行业、分主题构建数据质量检查规则模板库,比如,创建日期模板库就可以包括日期格式检查、非空约束两个规则;
  • 构建元数据的同义词库。利用词典法、机器学习法或人工方法,构建元数据的同义词库,比如,创建、成立、设立等是同义词,后续可以把创建日期、成立日期、设立日期等命名的字段归为一类,均使用创建日期模板生成质量检查规则。相关方法可以参考:https://blog.csdn.net/u014285884/article/details/62038597
  • 自动生成质量检查规则。实际应用当中,根据输入表的字段名称、描述信息,在模板库中匹配出最相似的模板,生成对应模板的规则。此处可以使用文本相似度计算的方法,匹配字段名称与规则模板之间的相似程度,可以参考:https://blog.csdn.net/diye2008/article/details/53762124。 除了根据字段名称和描述进行匹配之外,还需要考虑字段类型、字段值等相关因素,比如,若字段是时间戳类型,则不需要再生成格式检查规则了;若该字段的大部分数值中除了日期外,还有时间内容,则生成的检查规则也要有时间格式的检查。

可以看出,上面三个步骤当中,提炼并沉淀规则模板库、构建同义词库是关键,也是最能体现产品实力的地方,是产品的护城河。在一个行业的实践案例越多,沉淀的规则模板库越丰富;同义词库越丰富,匹配出来的规则越准确,也越能减少人工增加或调整规则的机会,更加体现出质量检查的“智能化”水平。

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值