python多线程+队列下载资源

最新推荐文章于 2024-07-31 15:55:27 发布

qq_21439971

最新推荐文章于 2024-07-31 15:55:27 发布

阅读量1.8k

点赞数

分类专栏： Python 文章标签： python

Python 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

import urllib.request
import re
import queue
import threading
import os
class download(threading.Thread):
	def __init__(self,que):
		threading.Thread.__init__(self)
		self.que=que
	def run(self):
		while True:
			if not self.que.empty():
				print('-----%s------'%(self.name))
				os.system('wget '+self.que.get())
			else:
				break

def startDown(url,rule,num,start,end,decoding=None):
	if not decoding:
		decoding='utf8'
	req=urllib.request.urlopen(url)
	body=req.read().decode(decoding)
	rule=re.compile(rule)
	link=rule.findall(body)
	que=queue.Queue()
	for l in link:
		que.put(l[start:end])
	for i in range(num):
		d=download(que)
		d.start()

if __name__=='__main__':
	url='https://class.coursera.org/algo-004/lecture/index'
	rule='<a target=\"_new\" href=\".*\"'
	startDown(url,rule,10,23,-1)

download类继承了threading.Thread类，并重写了run函数，目的是只要队列不为空，则不停的从队列中取出资源真实链接地址调用wget下载，如果为空则退出线程。startDown函数是多线程下载的接口，里面的参数分别为：url--资源的网页，rule--正则表达式匹配方式，num--开启的线程数，start--正则中匹配真实链接的起始位置，end--正则中匹配真实链接的结束位置，decoding--资源页面采用的编码方式，默认是utf8。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_21439971

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python多线程+队列下载资源

import urllib.requestimport reimport queueimport threadingimport osclass download(threading.Thread): def __init__(self,que): threading.Thread.__init__(self) self.que=que def run(self): wh
复制链接

扫一扫