python_queue多线程

原创 2015年07月08日 21:19:26

最近在看Queue多线程编程,准备写一个爬虫去爬网站的图片,看到的例子很多是一个固定的任务,用线程去跑几遍,实则Queue与Threading结合的方式是,线程可以从队列中获取一个数据去处理,执行任务函数,也就是说,任务函数的参数必须是队列,而任务函数是以队列中单个数据为参数的一个循环。在此基础上,队列就必须是一个全局变量。这类程序的代码组成如下:
全局变量队列
任务函数(队列)
线程执行函数(线程个数)(for循环)
主函数部分调用线程执行函数
遇到的问题:
(1)关于下载图片时图片编号的问题,这个可以定义在任务函数中;
(2)关于线程的参数,args = XXX, ,这里最好写逗号,否则程序可能会对参数类型判断错误,这里必须是队列。
稍后附上代码,初学python,欢迎各位大神指教。

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib
import re
import Queue
import hashlib
import cStringIO
import threading

from PIL import Image#第三方图像处理库,这个模块需要自己安装

#获取网页内链接
def get_Url(url):
    html = urllib.urlopen(url).read()
    raw_reg = r'<a.*?href="http://\w.*?["|\']+?'#匹配原始链接<a href="http:// "
    raw_pattern = re.compile(raw_reg)
    raw_link_list = re.findall(raw_pattern, html)
    reg = 'http://.*\w+'#匹配链接http://
    pattern = re.compile(reg)
    url_list = []
    for raw_link in raw_link_list:
        link = re.findall(pattern, raw_link)
        url_list.append(link[0])
    return url_list

#获取网页图片链接
def get_Img_Url(url):
    html = urllib.urlopen(url).read()
    raw_reg = r'<img.*?src="http://\w.+?["|\']+?'#匹配图片原始链接<img  src="http:// "
    raw_pattern = re.compile(raw_reg)
    raw_img_list = re.findall(raw_pattern, html)
    reg = 'http://.*\w+'#匹配图片链接http://
    pattern = re.compile(reg)
    img_url_list = []
    for raw_img in raw_img_list:
        img = re.findall(pattern, raw_img)#返回结果为list类型
        img_url_list.append(img[0])
    return img_url_list

url_queue = Queue.Queue()
img_queue = Queue.Queue()
url_crawled = set()
img_crawled = set()
set_lock = threading.Lock()

first_url = 'http://www.sohu.com'
url_queue.put(first_url)

#下载图片
def down_Img(url_queue):
    url_num = 0
    while not url_queue.empty():
        current_url = url_queue.get()
        print 'current url is %d' % url_num, current_url
        url_list = get_Url(current_url)
        img_url_list = get_Img_Url(current_url)
        current_url_md5 = hashlib.md5(current_url).hexdigest()
        set_lock.acquire()
        url_crawled.add(current_url_md5)#set添加一项用add,添加多项用update
        img_num = 0
        for url in url_list:
            url_md5 = hashlib.md5(url).hexdigest()
            if url_md5 not in url_crawled:
                url_queue.put(url)
        for img_url in img_url_list:
            img_url_md5 = hashlib.md5(img_url).hexdigest()
            if img_url_md5 not in img_crawled:
                img_queue.put(img_url)
                img_crawled.add(img_url_md5)

                try:
                    tmpImg = cStringIO.StringIO(urllib.urlopen(img_url).read())
                    ImgSize = Image.open(tmpImg).size#图片文件无法识别,抛出IOError
                    if ImgSize[0] > 100 and ImgSize[1] > 100:
                        urllib.urlretrieve(img_url, './get_img/%s.%s.jpg' % (url_num, img_num))
                        img_num += 1
                    else:
                        pass
                except IOError:
                    print 'The img url %s is not valid' % img_url
        set_lock.release()

        url_num += 1

def main(threads_num):
    threads_list = []
    for i in range(threads_num):
        t = threading.Thread(target=down_Img, args=(url_queue, ))
        threads_list.append(t)
    for t in threads_list:
        t.start()

if __name__ == '__main__':
    main(4)

关于学习的心得,熟悉基本的语法之后,对每个常用的模块要深入学习相关的函数,通过练习加以巩固,否则根本不会知道每个函数每个类型在实际使用中会出现什么样的问题。
以上。

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

python多线程(3)---生产者与消费者(线程通信)和Queue模块

Queue模块可以进行线程通信。比如生产者产生货物,货物放入队列,通过通信,消费者取得货物。Queue被称为通用队列模块 queue(size)产生一个队列,队列模式有3种,针对这三种队列分别有三个...

Python中的多线程threading和线程间消息队列queue学习笔记

python中实现多线程可以通过threading类。线程间同步则可以用queue类。至于python的进程间通信,暂时没有发现有类似linux ipc的模块可供使用,但是可以通过unix域套接字实现...

python 多线程+queue

python的queue设计的是线程安全的,所以大家伙放心用吧! python多线程的一种简单的实现如下:#!/usr/bin/env python # -*- coding: utf-8 -*- ...

python多线程-queue队列类型优先级队列,FIFO,LIFO

Queue在python3中重命名为queue,在python2到python3转换中可以自动转换队列可应用在多个生产者多个消费者的模型中,并且在多线程中可用于线程之间数据信息的安全交换通信,防止冲突...

python queue和多线程的爬虫 与 JoinableQueue和多进程的爬虫

多线程加queue的爬虫 以自己的csdn博客为例(捂脸,算不算刷自己博客访问量啊,哈哈哈) 代码比较简单,有注释: # -*-coding:utf-8-*- """ ayou """ import...

Python多线程3:queue

queue模块实现了多生产者,多消费者队列。在多线程环境下,该队列能实现多个线程间安全的信息交换。 queue模块介绍 模块实现了3种类型的队列,区别在于队列中条目检索的顺序不同。在FIFO队...

Queue在多线程中的使用

python多线程之Queue

Queue模块实现了多生产者多消费者队列, 尤其适合多线程编程.Queue类中实现了所有需要的锁原语(这句话非常重要), Queue模块实现了三种类型队列:

IOS-12-关于GCD多线程:dispatch_async 与 dispatch_get_global_queue 的使用方法

使用GCD的一个理由就是方便。回想一下以前的多线程编程,我们会把异步调用的代码放到另外的一个函数中,并通过NSThread开启新线程来启动这段代码。 这种跳来跳去的流程对于复杂的逻辑简直就是一场灾难。...

Java多线程总结之聊一聊Queue

上个星期总结了一下synchronized相关的知识,这次将Queue相关的知识总结一下,和朋友们分享。 在Java多线程应用中,队列的使用率很高,多数生产消费模型的首选数据结构就是队列。Java提...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)