爬虫系列之数据质量监控实践篇:规则库梳理与设计

8 篇文章 5 订阅 ¥79.90 ¥99.00
本文介绍了爬虫数据质量监控中规则库的构建,强调规则库应为抽象规则,而非具体表现。通过实例展示了规则库的逻辑实现,并详细阐述了规则库与kafka统一接口的关系处理及校验流程,旨在优化数据质量,提升产品体验。
摘要由CSDN通过智能技术生成

先前在《爬虫系列之数据质量监控(二):监控系统设计 》一文中,对采集中数据解析部分可能出现的各种异常,进行了大概的总结。比如:标题或内容中包含乱码、css样式、JavaScript代码等。

由于出现的异常可能千奇百怪,我们不可能提前想到所有现象。此时,就需要根据目前已经发现的问题,总结出一套能够灵活应对不同情况的规则库。

其目的就是在数据持久化接口处,对接收的所有数据,依据信源系统中配置的规则进行校验,以判断采集到的数据的准确性,便与改进采集器或脚本,优化数据质量,提高产品的用户体验。

一. 规则库必须是抽象的规则,而不是具体表象。

通过对《爬虫系列之数据质量监控(二):监控系统设计》 中描述的各类规则进行抽象,大致可以总结出以下规则。

如下表所示:

序号	分类	规则细则
1	校验规则	A字段值长度小于阀值A
2	校验规则	A字段的值是否包含CSS样式
3	校验规则	A字段的值是否有乱码
4	校验规则	A字段值中汉字长度小于阀值A
5	校验规则	A字段值是否符合yyyy-MM-dd HH:mm:ss时间格式
6	校验规则	A字段值等于阀值A
7	校验规则	A字段值大于阀值A
8	校验规则	A字段值长度大
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

十点数据

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值