python函数递归调用时对深度没有限制_Python:调用Python obj时超过了最大递归深度...

我已经构建了一个爬虫程序,它必须在大约500万个页面上运行(通过增加url ID),然后解析包含我需要的信息的页面。

在使用了一个运行在url上的算法(200K)并保存了好的和坏的结果之后,我发现I浪费了很多时间。我可以看到有一些返回的子标记,可以用来检查下一个有效的url。

你可以很快地看到子任务(前几个“好ID”中的一个)510000011 # +8

510000029 # +18

510000037 # +8

510000045 # +8

510000052 # +7

510000060 # +8

510000078 # +18

510000086 # +8

510000094 # +8

510000102 # +8

510000110 # etc'

510000128

510000136

510000144

510000151

510000169

510000177

510000185

510000193

510000201

在爬行了大约20万个url之后,我知道我在浪费时间,需要优化它,所以我运行了一些统计数据,并构建了一个函数来检查url,同时将id增加到8\18\17\8(top returning subtrahends)等。

这就是功能-def checkNextID(ID):

global numOfRuns, curRes, lastResult

while ID < lastResult:

try:

numOfRuns += 1

if numOfRuns % 10 == 0:

time.sleep(3) # sleep every 10 iterations

if isValid(ID + 8):

parseHTML(curRes)

checkNextID(ID + 8)

return 0

if isValid(ID + 18):

parseHTML(curRes)

checkNextID(ID + 18)

return 0

if isValid(ID + 7):

parseHTML(curRes)

checkNextID(ID + 7)

return 0

if isValid(ID + 17):

parseHTML(curRes)

checkNextID(ID + 17)

return 0

if isValid(ID+6):

parseHTML(curRes)

checkNextID(ID + 6)

return 0

if isValid(ID + 16):

parseHTML(curRes)

checkNextID(ID + 16)

return 0

else:

checkNextID(ID + 1)

return 0

except Exception, e:

print "somethin went wrong: " + str(e)

基本上要做的是-checkNextID(ID)得到我知道的第一个包含数据减8的ID,因此第一次迭代将匹配第一个“if isValid”子句(isValid(ID+8)将返回True)。

lastResult是一个变量,它保存最后一个已知的url id,因此我们将一直运行,直到numOfRuns

isValid()是一个函数,它获取一个ID+其中一个子数组,如果url包含我需要的内容,则返回True;如果url不包含我需要的数据,则返回False。

parseHTML是一个函数,它获取soup对象(curRes),解析所需的数据,然后将数据保存到csv,然后返回True。

如果isValid()返回True,我们将调用parseHTML(),然后尝试检查下一个ID+子标记(通过调用checkNextID(ID+子标记),如果没有一个返回我要查找的内容,我将其增加1,然后再次检查,直到找到下一个有效的url。

您可以看到剩下的代码here

运行代码后,我得到了大约950~个好结果,突然出现了一个异常-"somethin went wrong: maximum recursion depth exceeded while calling a

Python object"

我可以在WireShark上看到scipt卡在id-510009541上(我的脚本是用510000003开始的),脚本尝试用这个id获取url几次,然后我注意到错误并停止了它。

我真的很兴奋看到我得到了同样的结果,但是比我的旧脚本快25-40倍,HTTP请求更少,非常精确,1000个好结果我只错过了1个结果,这是我发现的,不可能重复5百万次,我的旧脚本运行了30个小时,当我的新脚本在5-10分钟内给出960个结果时,我得到了14-15K个结果。

我读到了堆栈限制,但是对于我试图用Python实现的算法必须有一个解决方案(我不能回到我以前的“算法”,它永远不会结束)。

谢谢!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值