python 多线程+gzip压缩爬虫

最新推荐文章于 2021-05-09 01:43:54 发布

echo_only_for_me

最新推荐文章于 2021-05-09 01:43:54 发布

阅读量1.4k

点赞数 1

分类专栏： python

本文链接：https://blog.csdn.net/u014368928/article/details/22313543

版权

本文介绍了一个使用Python实现的多线程爬虫，通过HTMLParser解析文本，同时开启3个线程进行操作。尽管该爬虫存在处理动态网页、网页编码和加密等问题，作者计划在学习了爬虫框架如BeautifulSoup后进行改进。目前，爬虫没有实现BFS深度控制，读者需要自行添加相关变量来控制爬取深度。

摘要由CSDN通过智能技术生成

#coding=utf-8
import urllib
import urllib2
import threading
import HTMLParser
import Queue
import os
import StringIO
import gzip
import re
import time
class GetUrllist(HTMLParser.HTMLParser):
def __init__(self):
HTMLParser.HTMLParser.__init__(self)
self.Urlqueue=Queue.Queue(-1)

def handle_starttag(self,tag,attrs):
if tag =='a':
for key,value in attrs:
if key =='href':
print value
self.Urlqueue.put(value)

class spider(threading.Thread):
def __init__(self,myname,parser,path='F:\\uuuuu'):
threading.Thread.__init__(self)
self.count=0
self.name=myna