import urllib.request import requests import urllib.parse import re # import chardet import urllib.request,urllib.parse,http.cookiejar from bs4 import BeautifulSoup #urls存储url,new_urls存储待爬取的url,old_urls存储已经爬过的url class UrlManger(object): """docstring for UrlManger""" def __init__(self): self.new_urls=set()#定义new_urls为一个集合,用来存储还未parse的urls self.old_urls=set()#定义old_urls为一个集合,用来存储已经爬取过的urls,后来发现定义成set不好,因为set里面的元素无序存储,取出的时候得到的页面是混乱的。 def get_new_url(self): new_url=self.new_urls.pop()#用set的pop()方法取得新的new_url,pop()的好处是每次从set的最后一位取值,取得的值从set里删除 # print('get_new_urllalalala'+ new_url) self.old_urls.add(new_url) return new_url def add_new_urls(self,urls): if urls is None or len(urls) == 0: return else: for url in urls: self.add_new_url(url) def add_new_url
用python完成一个爬虫,实现从豆瓣“西安单身小组”上抓取若干征男友帖子
最新推荐文章于 2024-06-24 15:49:09 发布
![](https://img-home.csdnimg.cn/images/20240711042549.png)