发现爬取的数据正确,但是时间不对。最后想到的解决办法是重新爬,可以重新爬取有80多万的量,这样下去又要花很久的时间。突然发现爬虫中保存HTML页面的必要性。虽然爬取的时候感觉这样很麻烦,可是如果大量数据已经爬取完成,再发现小问题都无从考证,到底是爬取方案有问题,还是页面数据更新了?没有原始网页,这些都无从考证!
切记:以后爬虫尽量保存原始页面,这样出问题了,可以分析自己的原因。而且也不用重新爬取,只需要提取一下页面就可以了。
继403后又发现一个坑
最新推荐文章于 2023-08-13 08:48:03 发布