用python完成一个爬虫，实现从豆瓣“西安单身小组”上抓取若干征男友帖子

最新推荐文章于 2024-06-24 15:49:09 发布

wangty000

最新推荐文章于 2024-06-24 15:49:09 发布

阅读量2.8k

点赞数 2

分类专栏： python 文章标签：爬虫豆瓣

本文链接：https://blog.csdn.net/wangty000/article/details/64479743

版权

import urllib.requestimport requestsimport urllib.parseimport re# import chardetimport urllib.request,urllib.parse,http.cookiejarfrom bs4 import BeautifulSoup#urls存储url，new_urls存储待爬取的url，old_u

摘要由CSDN通过智能技术生成

import urllib.request
import requests
import urllib.parse
import re
# import chardet
import urllib.request,urllib.parse,http.cookiejar
from bs4 import BeautifulSoup

#urls存储url，new_urls存储待爬取的url，old_urls存储已经爬过的url
class UrlManger(object):
	"""docstring for UrlManger"""
	def __init__(self):
		self.new_urls=set()#定义new_urls为一个集合,用来存储还未parse的urls
		self.old_urls=set()#定义old_urls为一个集合，用来存储已经爬取过的urls，后来发现定义成set不好，因为set里面的元素无序存储，取出的时候得到的页面是混乱的。
	def get_new_url(self):
		new_url=self.new_urls.pop()#用set的pop()方法取得新的new_url,pop()的好处是每次从set的最后一位取值，取得的值从set里删除
		# print('get_new_urllalalala'+ new_url)
		self.old_urls.add(new_url)
		return new_url
	def add_new_urls(self,urls):
		if urls is None or len(urls) == 0:
			return
		else:
			for url in urls:
				self.add_new_url(url)
	def add_new_url

最低0.47元/天解锁文章

wangty000

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
用python完成一个爬虫，实现从豆瓣“西安单身小组”上抓取若干征男友帖子

import urllib.requestimport requestsimport urllib.parseimport re# import chardetimport urllib.request,urllib.parse,http.cookiejarfrom bs4 import BeautifulSoup#urls存储url，new_urls存储待爬取的url，old_u
复制链接

扫一扫