爬虫系列之数据质量监控实践篇：规则库梳理与设计

最新推荐文章于 2024-04-06 22:20:19 发布

十点数据

最新推荐文章于 2024-04-06 22:20:19 发布

阅读量1.1k

点赞数 2

分类专栏：采集方案文章标签： python

本文链接：https://blog.csdn.net/fyli0304/article/details/107053783

版权

采集方案专栏收录该内容

8 篇文章 5 订阅 ¥79.90 ¥99.00

订阅专栏

本文介绍了爬虫数据质量监控中规则库的构建，强调规则库应为抽象规则，而非具体表现。通过实例展示了规则库的逻辑实现，并详细阐述了规则库与kafka统一接口的关系处理及校验流程，旨在优化数据质量，提升产品体验。

摘要由CSDN通过智能技术生成

先前在《爬虫系列之数据质量监控（二）：监控系统设计》一文中，对采集中数据解析部分可能出现的各种异常，进行了大概的总结。比如：标题或内容中包含乱码、css样式、JavaScript代码等。

由于出现的异常可能千奇百怪，我们不可能提前想到所有现象。此时，就需要根据目前已经发现的问题，总结出一套能够灵活应对不同情况的规则库。

其目的就是在数据持久化接口处，对接收的所有数据，依据信源系统中配置的规则进行校验，以判断采集到的数据的准确性，便与改进采集器或脚本，优化数据质量，提高产品的用户体验。

一. 规则库必须是抽象的规则，而不是具体表象。

通过对《爬虫系列之数据质量监控（二）：监控系统设计》中描述的各类规则进行抽象，大致可以总结出以下规则。

如下表所示：

序号	分类	规则细则
1	校验规则	A字段值长度小于阀值A
2	校验规则	A字段的值是否包含CSS样式
3	校验规则	A字段的值是否有乱码
4	校验规则	A字段值中汉字长度小于阀值A
5	校验规则	A字段值是否符合yyyy-MM-dd HH:mm:ss时间格式
6	校验规则	A字段值等于阀值A
7	校验规则	A字段值大于阀值A
8	校验规则	A字段值长度大

了解本专栏