继403后又发现一个坑

发现爬取的数据正确,但是时间不对。最后想到的解决办法是重新爬,可以重新爬取有80多万的量,这样下去又要花很久的时间。突然发现爬虫中保存HTML页面的必要性。虽然爬取的时候感觉这样很麻烦,可是如果大量数据已经爬取完成,再发现小问题都无从考证,到底是爬取方案有问题,还是页面数据更新了?没有原始网页,这些都无从考证!
切记:以后爬虫尽量保存原始页面,这样出问题了,可以分析自己的原因。而且也不用重新爬取,只需要提取一下页面就可以了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值