python模仿scrapy框架实现一个通用爬虫

该博客分享了如何在不依赖Scrapy框架的情况下,手动编写一个功能强大的爬虫程序。这个爬虫具备监控网站更新、使用随机代理IP、实现限流器以及设置重试下载等功能,确保爬取过程的稳定性和效率。
摘要由CSDN通过智能技术生成

不适用框架,写一个功能相对较全面的爬虫,包含监控网站更新、代理ip、限流器、提取链接、重试下载等基本功能
代码如下:
主函数:

def run(self):
    while not self.crawler_queue.empty():
        url_str = self.crawler_queue.get()
        print("url_str is ::::::{}".format(url_str))
        # 检测robots.txt文件规则
        if self.rp.can_fetch(self.headers["User-Agent"], url_str):
            self.throttle.wait_url(url_str)
            depth = self.visited[url_str]
            if depth < MAX_DEP:
                # 下载链接
                html_content = self.download(url_str)
                # 储存链接
                if html_content is not None:
                    self.save_result(html_content, url_str)
                    # self.mcache[url_str] = html_content
                    # save_url(html_content, url_str)
                    pass
                else:
                    continue
                # 筛选出页面所有的链接
                url_list = extractor_url_lists(html
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值