通过正则表达式爬取瀑布页百度图片 思路: 需要注意的地方: 思路: 根据输入的关键字,获取想要爬取的百度图片页的url地址 为了方便抓取,把瀑布页的展示模式改为翻页式 寻找翻页url的规律,获取需要抓取的url地址 分析url和html源码,通过正则表达式获取原始图片的url地址 通过正则表达式处理将来需要保存的图片名称 获取图片数据,并保存为指定名称 # !/usr/bin/python # Filename: 通过正则表达式爬取瀑布页百度图片.py # Data : 2020/07/23 # Author : --king-- # ctrl+alt+L自动加空格格式化 import requests import re import urllib.parse import time # 1. 获取想要爬取的百度图片url base_url = 'https://image.baidu.com/search/index?tn=baiduimage&word=' keyword = input('请输入您想要爬取的图片类型名称:') # 通过parse.quote处理汉字成url地址 url = base_url + urllib.parse.quote(keyword) # print(url) headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3756.400 QQBrowser/10.5.4043.400', 'Connection': 'close'} # 2. 把瀑布页的显示模式改为翻页式的 # 把url中的index换位flip url &