继403后又发现一个坑

最新推荐文章于 2023-08-13 08:48:03 发布

会编程的漂亮小姐姐

最新推荐文章于 2023-08-13 08:48:03 发布

阅读量258

点赞数

分类专栏：学习总结

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014229742/article/details/88692425

版权

学习总结专栏收录该内容

115 篇文章 0 订阅

订阅专栏

发现爬取的数据正确，但是时间不对。最后想到的解决办法是重新爬，可以重新爬取有80多万的量，这样下去又要花很久的时间。突然发现爬虫中保存HTML页面的必要性。虽然爬取的时候感觉这样很麻烦，可是如果大量数据已经爬取完成，再发现小问题都无从考证，到底是爬取方案有问题，还是页面数据更新了？没有原始网页，这些都无从考证！
切记：以后爬虫尽量保存原始页面，这样出问题了，可以分析自己的原因。而且也不用重新爬取，只需要提取一下页面就可以了。

会编程的漂亮小姐姐

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。