python_爬虫实践_（一）爬取静态小说网站要点

「已注销」

于 2019-05-29 21:26:31 发布

阅读量445

点赞数

分类专栏： python爬虫文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34384524/article/details/90678871

版权

用beautifulSoup+requests,完完整整爬取一个静态小说网站
重点1：完整爬取
重点2：静态网页，还没学jsp,selenium，json等这些，不会爬动态的

页面URL要点：
1：页面编号规律
2：一类可以直接下载全本的先可以在下载页面直接找到参数以及参数对应的值，然后用post提交参数，获取下载文件；另一类只能在线读的就用get爬取分页，获取其中的文本再组合成一个text

错误处理：
1：强制断开连接怎么处理
2：断点定位，保存断点，跳过断点（断点：强制断开 or 触发异常的地方）
3：全部爬取完成后自动重新尝试爬取断点
解决：用一组随爬取过程不断更新的全局变量定位当前爬取位置（curItem,curPage,curBook），用一组文件（breakPoint.txt,spyderLog.txt）保存断点位置和程序运行日志
总结：1：全局变量的更新与同步需要在思路清醒的时候去仔细编排代码；2：很慢，不停地读写外部存储设备（为了及时了解运行状态，所以是产生一条信息就写入同时flush一下防止缓存），速度很慢，但是通过配置文件可以详细记录运行过程，及时定位断点和发现代码缺陷（如有些小说名含有特殊字符，通过边运行边观察，则可以很快发现错误），以运行时间换排错时间（因为spyder console

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python_爬虫实践_（一）爬取静态小说网站要点

用beautifulSoup+requests,完完整整爬取一个静态小说网站重点1：完整爬取重点2：静态网页，还没学jsp,selenium，json等这些，不会爬动态的页面URL要点：1：页面编号规律2：一类可以直接下载全本的先可以在下载页面直接找到参数以及参数对应的值，然后用post提交参数，获取下载文件；另一类只能在线读的就用get爬取分页，获取其中的文本再组合成一个text错误...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。