Python 学习 Day43

url管理

import requests
from fack useragent import UserAgent
class URLManager(object):
def init(self):
self.new_url = []
self.old_url = []
#获取一个url
def get_new_url(self):
url = self.new_url.pop()
self.old_url.append(url)
return url
#增加一个url
def add_new_url(self, url):
if url not in self.new_url and url and url not in self.old_url:
self.new_url.append(url)
#增加多个url
def add_new_urls(self, urls):
for url in urls:
self.add_new_url(url)
#判断是否还有可以爬取的url
def has_new_url(self):
retrun self.get_new_url_size > 0
#获取可以爬取的数量
def get_new_url_size(self):
retrun len(self.new_url)
#获取已经爬取的数量
def get_old_url_size(self):
retrun len(self.old_url)
#爬取
class Downloader:
def init(self, url):
self.url = url
def download(self):
response = request.get(self.url, headers={“User-Agemt”:UserAgent().random})

#解析
#数据处理
#调度

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值