爬虫-Python编程基础1

1.序列化操作:

把内存中的变量变成可存储或可传输的过程,就是序列化。

为了解决的问题是:

在爬虫过程中,目标的网页URL一直在变化,而程序运行时,内存中储存着目标网页URL,一旦程序发生崩溃,那么该变量就会被操作系统回收。下次程序运行时,依然是从开始的网页开始爬取,浪费时间。

序列化和反序列化上手操作:

在不同的编程语言之间传递对象,把对象序列化为标准格式是关键,目前流行的是序列化为JSON格式。

 

2.多进程

通过Pool地址池可以提供指定数量的进程供用户调用,有新的请求提交到Pool中时,如果池还没有满,name就会创建一个进的进程来执行该请求;如果地址池中进程数达到规定最大值,那么请求就会等待,直到池中有进程结束,才会创建新的进程来处理它。

1):

进程花费时间为6S的是通过apply_async()方法执行的结果。

apply_async 是异步非阻塞的。
意思就是:不用等待当前进程执行完毕,随时根据系统调度来进行进程切换

2):

进程花费时间为6S的是通过apply()方法执行的结果。

apply方法是阻塞的。
意思就是等待当前子进程执行完毕后,在执行下一个进程。

两种方法的区别参考了博客:https://blog.csdn.net/xlengji/article/details/81084059

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值