很多同学都不知道怎么测试爬虫
通过对爬虫的分析,总结了爬虫的测试方法,其他建议欢迎补充。
——测试阶段
请点击输入图片描述(最多18字)
你可能很熟悉调用第三方平台(比如魔蝎)进行数据采集的流程。第三方页面授权后,第三方会帮助我们完成数据采集的任务。我们只需要等待结果被召回。
但是如果你想自己做爬虫,流程是什么?
其实爬虫和其他业务一样,也有一个过程。一般先触发创建任务,爬虫模块采集数据,采集完成后再对数据进行分析并入库。
对于授权爬虫,有SDK页面的也可以通过页面直接请求,其他的只能通过请求接口实现。还有一种爬虫,定期从网站抓取数据,后台配置任务后更新数据库。
当然还有很多其他的互动逻辑,每一步都需要分析评估。
所以我们可以从创建任务的接口开始,连接整个流程,在接口的响应中加入简单的检查,比如任务创建后的任务号,通过查询接口可以得到这个任务的结果数据,然后检查数据是否存储,存储是否准确,是否会乱码等。
从界面开始的好处是我们可以自动检查爬虫任务,检查数据是否可以创