思路:
- 根据输入的关键字,获取想要爬取的百度图片页的url地址
- 为了方便抓取,把瀑布页的展示模式改为翻页式
- 寻找翻页url的规律,获取需要抓取的url地址
- 分析url和html源码,通过正则表达式获取原始图片的url地址
- 通过正则表达式处理将来需要保存的图片名称
- 获取图片数据,并保存为指定名称
import requests
import re
import urllib.parse
import time
base_url = 'https://image.baidu.com/search/index?tn=baiduimage&word='
keyword = input('请输入您想要爬取的图片类型名称:')
url = base_url + urllib.parse.quote(keyword)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3756.400 QQBrowser/10.5.4043.400',
'Connection': 'close'}
url = url.replace('index'