一、测试阶段
对于需要调用第三方平台(比如魔蝎)进行数据采集的流程,大家可能比较熟悉,在第三方的页面进行授权后,第三方会帮我们完成数据采集的任务,我们只需要坐等结果回调回来就行了。但是如果是要自己做爬虫,那么又是个怎样的过程呢。
其实爬虫和其它业务一样,也是有流程的,一般先触发创建任务,爬虫模块进行数据采集,采集完成后再对数据进行解析入库。对于授权爬虫,有SDK页面的也可以直接通过页面进行请求,有的就只能通过请求接口来实现了。还有一类爬虫,在后台配置好任务后会定期到网站爬取数据并最新数据库。当然还有其他很多交互逻辑,每一步都需要分析和评估。
所以我们可以先从创建任务的接口入手,把整个流程连通起来,在接口的响应中添加简单的校验,比如创建任务之后有任务编号,并且可以通过查询接口获取到该次任务的结果数据,再检验数据是否有入库、入库是否准确、是否会乱码等。从接口入手的好处是我们可以将爬虫任务进行自动化检验,检验数据是否可以创建、爬虫是否可以正常爬取、爬取的结果是否入库等。解析的逻辑、入库的准确需要关注,爬虫结果数据的入库关系到数据的分析和应用,对于数据分析来说,如果源头的数据就是错误的,那么不管分析