python：bs4爬取奥特曼，是不是所有奥特曼都长一样

番茄牛腩不吃番茄

于 2021-11-16 21:13:47 发布

阅读量1.3k

点赞数 1

分类专栏： python网络爬虫文章标签： python 爬虫数据挖掘

本文链接：https://blog.csdn.net/LIFENG0402/article/details/121365529

版权

本文介绍了使用Python的BeautifulSoup和requests库爬取奥特曼粉丝联盟网站上的奥特曼图片。通过封装爬虫类，详细展示了爬取过程，并通过结果反驳了‘所有奥特曼都长一样’的观点，强调了多样性。代码注释清晰，适合有一定Python基础的读者学习。

摘要由CSDN通过智能技术生成

利用python+bs4爬取奥特曼粉丝联盟的奥特曼图片，难点把其实也没有，就是爬虫不经常搞，容易忘记一些东西。废话不多说，直接上代码

主要引包

import os
from pathlib import Path
from bs4 import BeautifulSoup
from requests import Session

os模块在这里的功能就是判断路径是否存在的
pathlib模块主要是获取路径用的
BeautifulSoup就是解析库，也是主要的爬取数据库
requests库调用了Session(类似一个浏览器)，主要用于请求获取页面的

代码整合

import os
from pathlib import Path
from bs4 import BeautifulSoup
from requests import Session



class UltramanCrawling:

    def __init__(self):
        self.s = Session()
        self.s.headers.update(
            {"User-Agent": "Mozilla/5.0 (Windows NT 6.2; Win64; x64; rv:94.0) Gecko/20100101 Firefox/94.0"})

    def request_url(self, url):
        """
        返回解码后，然后再解析的html树
        :param url:
        :return:
        """
        response = self.s.get(url=url)