python模仿scrapy框架实现一个通用爬虫

最新推荐文章于 2021-05-18 22:28:16 发布

胖虎天下第一

最新推荐文章于 2021-05-18 22:28:16 发布

阅读量337

点赞数 1

分类专栏： python 爬虫 scrapy

本文链接：https://blog.csdn.net/qq_43468291/article/details/85305946

版权

该博客分享了如何在不依赖Scrapy框架的情况下，手动编写一个功能强大的爬虫程序。这个爬虫具备监控网站更新、使用随机代理IP、实现限流器以及设置重试下载等功能，确保爬取过程的稳定性和效率。

摘要由CSDN通过智能技术生成

不适用框架，写一个功能相对较全面的爬虫，包含监控网站更新、代理ip、限流器、提取链接、重试下载等基本功能
代码如下：
主函数：

def run(self):
    while not self.crawler_queue.empty():
        url_str = self.crawler_queue.get()
        print("url_str is ::::::{}".format(url_str))
        # 检测robots.txt文件规则
        if self.rp.can_fetch(self.headers["User-Agent"], url_str):
            self.throttle.wait_url(url_str)
            depth = self.visited[url_str]
            if depth < MAX_DEP:
                # 下载链接
                html_content = self.download(url_str)
                # 储存链接
                if html_content is not None:
                    self.save_result(html_content, url_str)
                    # self.mcache[url_str] = html_content
                    # save_url(html_content, url_str)
                    pass
                else:
                    continue
                # 筛选出页面所有的链接
                url_list = extractor_url_lists(html