利用python+bs4爬取奥特曼粉丝联盟的奥特曼图片,难点把其实也没有,就是爬虫不经常搞,容易忘记一些东西。废话不多说,直接上代码
主要引包
import os
from pathlib import Path
from bs4 import BeautifulSoup
from requests import Session
- os模块在这里的功能就是判断路径是否存在的
- pathlib模块主要是获取路径用的
- BeautifulSoup就是解析库,也是主要的爬取数据库
- requests库调用了Session(类似一个浏览器),主要用于请求获取页面的
代码整合
import os
from pathlib import Path
from bs4 import BeautifulSoup
from requests import Session
class UltramanCrawling:
def __init__(self):
self.s = Session()
self.s.headers.update(
{"User-Agent": "Mozilla/5.0 (Windows NT 6.2; Win64; x64; rv:94.0) Gecko/20100101 Firefox/94.0"})
def request_url(self, url):
"""
返回解码后,然后再解析的html树
:param url:
:return:
"""
response = self.s.get(url=url)