python_爬虫实践_(一)爬取静态小说网站要点

用beautifulSoup+requests,完完整整爬取一个静态小说网站
重点1:完整爬取
重点2:静态网页,还没学jsp,selenium,json等这些,不会爬动态的

页面URL要点:
1:页面编号规律
2:一类可以直接下载全本的先可以在下载页面直接找到参数以及参数对应的值,然后用post提交参数,获取下载文件;另一类只能在线读的就用get爬取分页,获取其中的文本再组合成一个text

错误处理:
1:强制断开连接怎么处理
2:断点定位,保存断点,跳过断点(断点:强制断开 or 触发异常 的地方)
3:全部爬取完成后自动重新尝试爬取断点
解决:用一组随爬取过程不断更新的全局变量定位当前爬取位置(curItem,curPage,curBook),用一组文件(breakPoint.txt,spyderLog.txt)保存断点位置和程序运行日志
总结:1:全局变量的更新与同步需要在思路清醒的时候去仔细编排代码;2:很慢,不停地读写外部存储设备(为了及时了解运行状态,所以是产生一条信息就写入同时flush一下防止缓存),速度很慢,但是通过配置文件可以详细记录运行过程,及时定位断点和发现代码缺陷(如有些小说名含有特殊字符,通过边运行边观察,则可以很快发现错误),以运行时间换排错时间(因为spyder console

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值