Python零基础之爬取瀑布页百度图片(正则表达式,爬虫,反爬,延时,异常处理)

通过正则表达式爬取瀑布页百度图片

思路:

  1. 根据输入的关键字,获取想要爬取的百度图片页的url地址
  2. 为了方便抓取,把瀑布页的展示模式改为翻页式
  3. 寻找翻页url的规律,获取需要抓取的url地址
  4. 分析url和html源码,通过正则表达式获取原始图片的url地址
  5. 通过正则表达式处理将来需要保存的图片名称
  6. 获取图片数据,并保存为指定名称
# !/usr/bin/python
# Filename: 通过正则表达式爬取瀑布页百度图片.py
# Data    : 2020/07/23
# Author  : --king--
# ctrl+alt+L自动加空格格式化


import requests
import re
import urllib.parse
import time

# 1. 获取想要爬取的百度图片url
base_url = 'https://image.baidu.com/search/index?tn=baiduimage&word='
keyword = input('请输入您想要爬取的图片类型名称:')
# 通过parse.quote处理汉字成url地址
url = base_url + urllib.parse.quote(keyword)
# print(url)
headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3756.400 QQBrowser/10.5.4043.400',
    'Connection': 'close'}

# 2. 把瀑布页的显示模式改为翻页式的
# 把url中的index换位flip
url &
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

kingx3

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值