1.序列化操作:
把内存中的变量变成可存储或可传输的过程,就是序列化。
为了解决的问题是:
在爬虫过程中,目标的网页URL一直在变化,而程序运行时,内存中储存着目标网页URL,一旦程序发生崩溃,那么该变量就会被操作系统回收。下次程序运行时,依然是从开始的网页开始爬取,浪费时间。
序列化和反序列化上手操作:
在不同的编程语言之间传递对象,把对象序列化为标准格式是关键,目前流行的是序列化为JSON格式。
2.多进程
通过Pool地址池可以提供指定数量的进程供用户调用,有新的请求提交到Pool中时,如果池还没有满,name就会创建一个进的进程来执行该请求;如果地址池中进程数达到规定最大值,那么请求就会等待,直到池中有进程结束,才会创建新的进程来处理它。
1):
进程花费时间为6S的是通过apply_async()方法执行的结果。
apply_async 是异步非阻塞的。
意思就是:不用等待当前进程执行完毕,随时根据系统调度来进行进程切换。
2):
进程花费时间为6S的是通过apply()方法执行的结果。
apply方法是阻塞的。
意思就是等待当前子进程执行完毕后,在执行下一个进程。
两种方法的区别参考了博客:https://blog.csdn.net/xlengji/article/details/81084059