火狐可以使用广告终结者_使用Jupyter从终结者终止的地方重新启动脚本

火狐可以使用广告终结者

您是否曾经遇到过刮板遇到错误的情况[可能是服务器错误或刮板块],并且不得不重新开始?

你真幸运! 您可以使用Jupyter从刮板终止的位置重新启动脚本。 我不知道这是如何工作的,但让我给您简要说明如何使用此解决方法。

该解决方案很大程度上取决于Jupyter的“运行代码”功能,在此功能中,我们可以独立于每批代码运行代码块。

从常用的抓取库开始:

Python,Selenium,熊猫,美丽汤和您的老朋友时光。

是该项目所需的库。

在这个解释中,我不会深入研究我的源代码,而是将展示我的第一批抓取代码的外观。

我的代码的简要说明如下:

转到目标站点执行一些操作以使用xpath转到我想使用的特定站点。创建一个名为Compiled_list的数组将javascript中的``地狱''从JavaScript表中剔除(在具有分页功能的网站中处理不会显示在URL)将数组中的数据``转换''为大熊猫数据框。将大熊猫数据表导出为CSV,并用页面命名它们某些部分由于数据敏感性而被屏蔽

我们在这里...什么? 服务器已关闭...。

抓很多东西的人讨厌这个错误信息

但是正如我在本文的第一部分中所说的那样,请创建另一批代码,以继续您开始使用的代码。

在继续之前

1)不要关闭与您的脚本连接的Chrome浏览器。 如果您这样做,则所有会话/进度都将被删除。

2)请记住检查您抓取的页码,并在下一批代码中进行相应的重新编码。

因此,再次运行该程序……在导出部分中,在设置编号为no的ID号中稍有更改。

在运行此代码块之前,我编辑了设置号码

和田田! 我们继续抓取其余的场景

其余代码正在运行:-)

但是,如果网站服务器像我的目标网站一样不稳定,请提防连续错误。 每当您的程序与网站的连接中断时,请重复上述过程。

我无法弄清楚如何使这部分自动化,但是如果您的真棒读者都知道答案,请在下面评论。

无论如何,就是伙计们〜jupyter抓取时间机器。



翻译自: https://hackernoon.com/use-jupyter-to-restart-the-script-from-the-point-where-the-scrapper-terminated-jp6g32fm

火狐可以使用广告终结者

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值