python3 urllib3和urllib_Python urllib3和代理

最新推荐文章于 2024-01-12 14:20:07 发布

叶深深

最新推荐文章于 2024-01-12 14:20:07 发布

阅读量155

点赞数

文章标签： python3 urllib3和urllib

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42579969/article/details/112964184

版权

这篇博客建议使用requests替代urllib，因为requests更易于处理代理。文中介绍了如何利用多处理（而非多线程）进行URL列表的并行处理，通过将任务分配到多个进程中，每个进程独立写入数据库，实现数据的分布式处理。同时，提到了使用JoinableQueue进行进程间通信的可能性。

摘要由CSDN通过智能技术生成

首先，我建议避免像瘟疫一样使用urllib，而使用requests，它非常容易支持代理：http://docs.python-requests.org/en/latest/user/advanced/#proxies

其次，我没有将它用于多线程，而是用于多处理，这非常有效，您唯一需要弄清楚的是，您是否有一个动态队列或一个相当固定的列表，您可以将其分布在workers上，后者将URL列表均匀地分布在x个进程上：# *** prepare multi processing

nr_processes = 4

chunksize = int(math.ceil(total_nr_urls / float(nr_processes)))

procs = []

# *** start up processes

for i in range(nr_processes):

start_row = chunksize * i

end_row = min(chunksize * (i + 1), total_nr_store)

p = multiprocessing.Process(

target=url_loop,

args=(start_row, end_row, str(i), job_id_input))

procs.append(p)

p.start()

# *** Wait for all worker processes to finish

for p in procs:

p.join()

每个url_循环进程都会将自己的数据集写入数据库中的表中，因此我不必担心在python中将其连接在一起。在

但正如您所见，基本上这些特殊类型(Value&Array)支持进程之间的数据共享。

如果您转而寻找一个队列来执行类似循环的过程，那么可以使用JoinableQueue。

希望这有帮助！在

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。