Python数据分析3——爬虫读入url和中断继续开始功能

爬虫执行过程中,难免会受网络出故障,电脑死机等一些不可控因素 的干扰,而一旦出现这种情况,代码就会报错或者中断,需要重新执行。这样一来,为了避免代码的重复执行,保障运行效率,就必须要给代码设置中断后重新开始的功能。

中断继续开始的思路如下:

前提:

1.定义好爬虫函数(这个因具体网页而异)
2.定义存储抓完的url的函数

def saveFinished(url=None, path=None):
    """
    :param pageurl: 已完成页面url
    :param path: 写入文件
    :return:
    """
    if url is not None:
        with open(path, r"a", newline="", encoding="utf8") as fileError:
            fileError.writelines(url+'\n')

3.定义restart_program函数。含义是爬虫执行中出现故障,需要手动重新开始

  • 1
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值