python 多线程 +队列下载资源

python多线程+队列下载资源

分类: Python 87人阅读 评论(0) 收藏 举报

网上有一些公开课视频教程还有课件啥的,手动下太慢了,写个python下载。我想尽可能的做到通用性,以后可以直接用的,代码如下,抛砖引玉,欢迎建议和意见:

  1. import urllib.request
  2. import re
  3. import queue
  4. import threading
  5. import os
  6. class download(threading.Thread):
  7. def __init__(self,que):
  8. threading.Thread.__init__(self)
  9. self.que=que
  10. def run(self):
  11. while True:
  12. if not self.que.empty():
  13. print('-----%s------'%(self.name))
  14. os.system('wget '+self.que.get())
  15. else:
  16. break
  17. def startDown(url,rule,num,start,end,decoding=None):
  18. if not decoding:
  19. decoding='utf8'
  20. req=urllib.request.urlopen(url)
  21. body=req.read().decode(decoding)
  22. rule=re.compile(rule)
  23. link=rule.findall(body)
  24. que=queue.Queue()
  25. for l in link:
  26. que.put(l[start:end])
  27. for i in range(num):
  28. d=download(que)
  29. d.start()
  30. if __name__=='__main__':
  31. url='https://class.coursera.org/algo-004/lecture/index'
  32. rule='<a target=\"_new\" href=\".*\"'
  33. startDown(url,rule,10,23,-1)
import urllib.request
import re
import queue
import threading
import os
class download(threading.Thread):
	def __init__(self,que):
		threading.Thread.__init__(self)
		self.que=que
	def run(self):
		while True:
			if not self.que.empty():
				print('-----%s------'%(self.name))
				os.system('wget '+self.que.get())
			else:
				break

def startDown(url,rule,num,start,end,decoding=None):
	if not decoding:
		decoding='utf8'
	req=urllib.request.urlopen(url)
	body=req.read().decode(decoding)
	rule=re.compile(rule)
	link=rule.findall(body)
	que=queue.Queue()
	for l in link:
		que.put(l[start:end])
	for i in range(num):
		d=download(que)
		d.start()

if __name__=='__main__':
	url='https://class.coursera.org/algo-004/lecture/index'
	rule='<a target=\"_new\" href=\".*\"'
	startDown(url,rule,10,23,-1)

简单说一下:download类继承了threading.Thread类,并重写了run函数,目的是只要队列不为空,则不停的从队列中取出资源真实链接地址调用wget下载,如果为空则退出线程。startDown函数是多线程下载的接口,里面的参数分别为:url--资源的网页,rule--正则表达式匹配方式,num--开启的线程数,start--正则中匹配真实链接的起始位置,end--正则中匹配真实链接的结束位置,decoding--资源页面采用的编码方式,默认是utf8。

下面是我运行时的样子:



好了,下次要下载直接import这个文件就妥了~哈哈~希望得到大家批评,我也希望进步快点~


转载请注明:转自 http://blog.csdn.net/littlethunder/article/details/9396059

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值