Python零基础之爬取瀑布页百度图片（正则表达式，爬虫，反爬，延时，异常处理）

本文链接：https://blog.csdn.net/kingx3/article/details/107541481

本文介绍了如何使用Python进行网络爬虫，针对百度图片进行爬取。内容包括利用正则表达式抓取图片URL，处理中文关键字，将瀑布流页面转化为翻页模式，处理图片名称及异常，以及加入延时策略防止请求过快。

摘要由CSDN通过智能技术生成

通过正则表达式爬取瀑布页百度图片

思路:
需要注意的地方：

思路:

根据输入的关键字，获取想要爬取的百度图片页的url地址
为了方便抓取，把瀑布页的展示模式改为翻页式
寻找翻页url的规律，获取需要抓取的url地址
分析url和html源码，通过正则表达式获取原始图片的url地址
通过正则表达式处理将来需要保存的图片名称
获取图片数据，并保存为指定名称

# !/usr/bin/python
# Filename: 通过正则表达式爬取瀑布页百度图片.py
# Data    : 2020/07/23
# Author  : --king--
# ctrl+alt+L自动加空格格式化


import requests
import re
import urllib.parse
import time

# 1. 获取想要爬取的百度图片url
base_url = 'https://image.baidu.com/search/index?tn=baiduimage&word='
keyword = input('请输入您想要爬取的图片类型名称:')
# 通过parse.quote处理汉字成url地址
url = base_url + urllib.parse.quote(keyword)
# print(url)
headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3756.400 QQBrowser/10.5.4043.400',
    'Connection': 'close'}

# 2. 把瀑布页的显示模式改为翻页式的
# 把url中的index换位flip
url = url.replace('index'