python爬虫(二)----URL管理器和网页解析器

本文介绍了使用Python实现URL管理器,强调了在内存中存储数据的临时性以及使用Redis和MySQL进行数据持久化的必要性。同时提及BeautifulSoup在网页解析中的作用,用于提取HTML标签内容。
摘要由CSDN通过智能技术生成

一、URL管理器
在这里插入图片描述
注意:数据存储使用python内存时程序运行结束数据不会保留,而保存到redis和MySQL中数据可以长久保存。

代码实现:

class URLManager():
    def __init__(self):
        """
        存取未爬取的url
        """
        self.new_urls = set()


        """
        存取已爬取的url
        """
        self.old_urls = set()

    """
    两个新增url的方法,嵌套使用,分别实现url的单个增加和批量增加
    """
    def add_new_url(self,url):
        if url is None or len(url) == 0:
            return
        if url in self.new_urls or url in self.old_urls:
            return
        self.new_urls.add(url)
    def add_new_urls(self,urls):
        if urls is None or len(urls) == 0:
            return
        for url in urls:
            self.add_new_url(url)

    def get_url(self):
        """
        取出url并更改状态
        :return:
        """
        if self.has_new_url():
            url = self.new_urls.pop()
            self.old_urls.add(url)
            return url
        else:
            return None

    def has_new_url(self):
        """
        判断容器中是否有待爬取的url
        :return:
        """
        return len(self.new_urls) > 0

if __name__ == "__main__":
    """
    测试
    """
    url_manager = URLManager()
    url_manager.add_new_url("url1")
    url_manager.add_new_urls(["url1" , "url2"])
    print(url_manager.new_urls , url_manager.old_urls)
    """
    打印分割线
    """
    print("#"*30)
    new_url = url_manager.get_url()
    print(url_manager.new_urls, url_manager.old_urls)

    print("#" * 30)
    new_url = url_manager.get_url()
    print(url_manager.new_urls, url_manager.old_urls)

    print("#"*30)
    print(url_manager.has_new_url)

二、网页解析器Beautiful Soup
1.
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
其实就是根据html标签名称及其他属性来提取指定标签的内容。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值