用python完成一个爬虫,实现从豆瓣“西安单身小组”上抓取若干征男友帖子

import urllib.requestimport requestsimport urllib.parseimport re# import chardetimport urllib.request,urllib.parse,http.cookiejarfrom bs4 import BeautifulSoup#urls存储url,new_urls存储待爬取的url,old_u
摘要由CSDN通过智能技术生成
import urllib.request
import requests
import urllib.parse
import re
# import chardet
import urllib.request,urllib.parse,http.cookiejar
from bs4 import BeautifulSoup

#urls存储url,new_urls存储待爬取的url,old_urls存储已经爬过的url
class UrlManger(object):
	"""docstring for UrlManger"""
	def __init__(self):
		self.new_urls=set()#定义new_urls为一个集合,用来存储还未parse的urls
		self.old_urls=set()#定义old_urls为一个集合,用来存储已经爬取过的urls,后来发现定义成set不好,因为set里面的元素无序存储,取出的时候得到的页面是混乱的。
	def get_new_url(self):
		new_url=self.new_urls.pop()#用set的pop()方法取得新的new_url,pop()的好处是每次从set的最后一位取值,取得的值从set里删除
		# print('get_new_urllalalala'+ new_url)
		self.old_urls.add(new_url)
		return new_url
	def add_new_urls(self,urls):
		if urls is None or len(urls) == 0:
			return
		else:
			for url in urls:
				self.add_new_url(url)
	def add_new_url
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值