python多线程队列爬虫流程图_python多线程多队列（BeautifulSoup网络爬虫）

最新推荐文章于 2024-04-10 10:46:52 发布

weixin_39963523

最新推荐文章于 2024-04-10 10:46:52 发布

阅读量373

点赞数

文章标签： python多线程队列爬虫流程图

程序大概内容如下：

程序中设置两个队列分别为queue负责存放网址，out_queue负责存放网页的源代码。

ThreadUrl线程负责将队列queue中网址的源代码urlopen，存放到out_queue队列中。

DatamineThread线程负责使用BeautifulSoup模块从out_queue网页的源代码中提取出想要的内容并输出。

这只是一个基本的框架，可以根据需求继续扩展。

程序中有很详细的注释，如有有问题跪求指正啊。

import Queue

import threading

import urllib2

import time

from BeautifulSoup import BeautifulSoup

hosts = ["http://yahoo.com","http://taobao.com","http://apple.com",

"http://ibm.com","http://www.amazon.cn"]

queue = Queue.Queue()#存放网址的队列

out_queue = Queue.Queue()#存放网址页面的队列

class ThreadUrl(threading.Thread):

def __init__(self,queue,out_queue):

threading.Thread.__init__(self)

self.queue = queue

self.out_queue = out_queue

def run(self):

while True:

host = self.queue.get()

url = urllib2.urlopen(host)

chunk = url.read()

self.out_queue.put(chunk)#将hosts中的页面传给out_queue

self.queue.task_done()#传入一个相当于完成一个任务

class DatamineThread(threading.Thread):

def __init__(self,out_queue):

threading.Thread.__init__(self)

self.out_queue = out_queue

def run(self):

while True:

chunk = self.out_queue.get()

soup = BeautifulSoup(chunk)#从源代码中搜索title标签的内容

print soup.findAll(['title'])

self.out_queue.task_done()

start = time.time()

def main():

for i in range(5):

t = ThreadUrl(queue,out_queue)#线程任务就是将网址的源代码存放到out_queue队列中

t.setDaemon(True)#设置为守护线程

t.start()

#将网址都存放到queue队列中

for host in hosts:

queue.put(host)

for i in range(5):

dt = DatamineThread(out_queue)#线程任务就是从源代码中解析出

标签内的内容

dt.setDaemon(True)

dt.start()

queue.join()#线程依次执行，主线程最后执行

out_queue.join()

main()

print "Total time :%s"%(time.time()-start)

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com

特别注意：本站所有转载文章言论不代表本站观点！

本站所提供的图片等素材，版权归原作者所有，如需使用，请与原作者联系。

weixin_39963523

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python多线程队列爬虫流程图_python多线程多队列（BeautifulSoup网络爬虫）

程序大概内容如下：程序中设置两个队列分别为queue负责存放网址，out_queue负责存放网页的源代码。ThreadUrl线程负责将队列queue中网址的源代码urlopen，存放到out_queue队列中。DatamineThread线程负责使用BeautifulSoup模块从out_queue网页的源代码中提取出想要的内容并输出。这只是一个基本的框架，可以根据需求继续扩展。程序中有很详细的注...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。