多线程抓取热词

#coding:utf-8
import threading
import re
import urllib
from collections import deque

def encode(key):
    return key.decode("gbk").encode("utf-8")

def getHotWord():
    while True:
        try:
            url = QUEUE.popleft()
            print url
            webcontent = urllib.urlopen(url).read()
            txts = re.findall('<a class="list-title".*?">(.*?)</a>',webcontent)
            WORD_LIST.extend(map(encode, txts))
        except Exception,e:
            print e
            if str(e) == "pop from an empty deque":  
                break
            else:
                QUEUE.extend(url)
                
    f = open("KeyWords.inc",'w')   
    print "-->",len(WORD_LIST)
    f.writelines("\n".join(WORD_LIST))
    f.close()
    

THREAD_NUM = 5
URL_LIST = ['http://top.baidu.com/buzz?b=26&c=1',
            'http://top.baidu.com/buzz?b=659&c=1',
            'http://top.baidu.com/buzz?b=338&c=1',
            'http://top.baidu.com/buzz?b=340&c=1',
            'http://top.baidu.com/buzz?b=339&c=1',
            'http://top.baidu.com/buzz?b=337&c=1',
            'http://top.baidu.com/buzz?b=437&c=1',
            ]

QUEUE = deque(URL_LIST)
WORD_LIST = deque([])

for i in range(THREAD_NUM):
    print "Thread %s Start..."%(i+1)
    t = threading.Thread(target=getHotWord,args=())
    t.start()
    t.join(1)
    

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值