通过关键词爬取百度图片——Python爬虫

爬取百度图片


在这里我们先列出本次爬虫的步骤(思路很重要):

  • 1、通过requests获取网页信息
  • 2、找到图片链接在哪里
  • 3、创建文件夹,将图片下载到本地

在开始之前,先讲一下百度图片翻页的一个小细节(看图):

  • 这是下滑加载更多的翻页方式(对我们的爬虫造成了干扰)
    在这里插入图片描述
  • 这种是传统的翻页方式(我们爬的是这种网页)
    在这里插入图片描述

那么,我们怎么把网页变成我们想要的呢?在这里教大家一个小技巧:

https://image.baidu.com/search/ index ?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1550561905560_R&pv=&ic=&nc=1&z=&hd=&latest=&copyright=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=Python
 
将index改为 flip,就可以将翻页模式变成传统翻页了(很神奇吧)


进入正文啦!

第一步,requests请求

class是类封装,不懂的话可以上网找下教程,或者我有空写一篇教程…

import requests
import os
import re
#word是要爬的图片名字
word=input("请输入关键词:")
#j用来标记图片数量
j=1

class PaChong:
#		初始化
    def __init__(self,word,i):
        #path是图片存放的地方
        self.path="F:/"+word+"/"
#         第几页
        self.page=i/20+1
        #如果文件夹不存在,则创建文件夹
        if not os.path.exists(self.path):
            os.mkdir(self.path)
            
    #发出requests请求
    def requests_get(self,url):
        req=requests.get(url,timeout=30)
        req.encoding="utf-8"
        self.req=req.text

第二步,通过正则找到图片链接

通过图片链接,在源代码中我们可以找到存放链接的key:objURL,这样我们就可以通过正则找出所有的链接
在这里插入图片描述

#正则找到图片链接
    def  get_imgurl(self):
        imgurls=re.findall('"objURL":"(.*?)"',self.req,re.S)
        self.imgurls=imgurls

第三步,下载图片到本地+循环翻页爬取
链接里的word是关键词的参数,pn参数是用来翻页的

    #下载图片到本地
    def download(self):
        global j
        for imgurl in self.imgurls:
            path=self.path+word+str(j)
            with open(path+".jpg","wb") as f:
                r=requests.get(imgurl)
                f.write(r.content)
            print("%s下载成功"%path)
            j+=1
        print("第{}页下载结束!".format(self.page))
#通过pn参数实现翻页,第一页为0,间隔为20
for i in range(0,60,20):
    url="https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word={0}&pn={1}&gsm=50&ct=&ic=0&lm=-1&width=0&height=0".format(word,i)
    Run=PaChong(word,i)
    Run.requests_get(url)
    Run.get_imgurl()
    Run.download()

在这里我们输入关键词:剑网三,以下是代码运行结果(会玩剑网三的博友可以带我玩呀嘻嘻):
在这里插入图片描述


代码整合:

import requests
import os
import re
#word是要爬的图片名字
word=input("请输入关键词:")
#j用来标记图片数量
j=1
class PaChong:
    def __init__(self,word,i):
        #path是图片存放的地方
        self.path="F:/"+word+"/"
#         第几页
        self.page=i/20+1
        #如果文件夹不存在,则创建文件夹
        if not os.path.exists(self.path):
            os.mkdir(self.path)
    #发出requests请求
    def requests_get(self,url):
        req=requests.get(url,timeout=30)
        req.encoding="utf-8"
        self.req=req.text
    
    #正则找到图片链接
    def  get_imgurl(self):
        imgurls=re.findall('"objURL":"(.*?)"',self.req,re.S)
        self.imgurls=imgurls
    #下载图片到本地
    def download(self):
        global j
        for imgurl in self.imgurls:
            path=self.path+word+str(j)
            #写入文件
            with open(path+".jpg","wb") as f:
                r=requests.get(imgurl)
                f.write(r.content)
            print("%s下载成功"%path)
            j+=1
        print("第{}页下载结束!".format(self.page))
#通过pn参数实现翻页,第一页为0,间隔为20
for i in range(0,60,20):
    url="https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word={0}&pn={1}&gsm=50&ct=&ic=0&lm=-1&width=0&height=0".format(word,i)
    Run=PaChong(word,i)
    Run.requests_get(url)
    Run.get_imgurl()
    Run.download()

如果这篇文章对您有用的话,可以点个赞鼓励我下再走哈哈

  • 20
    点赞
  • 52
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
以下是使用Python爬取百度图片并保存的示例代码: ```python # 导入依赖库 import requests import re import os # 设置搜索关键字 keyword = "美食" # 设置图片保存路径 save_path = "./images/" # 构造百度图片搜索的URL url = "https://image.baidu.com/search/index?tn=baiduimage&word={}".format(keyword) # 发送HTTP请求并获取响应 response = requests.get(url) # 使用正则表达式从响应内容中提取图片URL列表 img_urls = re.findall('"objURL":"(.*?)",', response.text, re.S) # 遍历图片URL列表并下载保存图片 for i, img_url in enumerate(img_urls): try: # 发送HTTP请求并获取响应 response = requests.get(img_url, timeout=10) # 设置图片保存路径 img_path = os.path.join(save_path, "{}.jpg".format(i)) # 保存图片 with open(img_path, "wb") as f: f.write(response.content) print("成功下载第{:>3d}张图片!".format(i+1)) except Exception as e: print("下载第{:>3d}张图片失败:{}".format(i+1, e)) ``` 解释一下上述代码的主要步骤: 1. 设置搜索关键字图片保存路径 2. 构造百度图片搜索的URL 3. 发送HTTP请求并获取响应 4. 使用正则表达式从响应内容中提取图片URL列表 5. 遍历图片URL列表并下载保存图片 需要注意的是,这种方式只是简单的使用正则表达式从响应内容中提取图片URL,而没有使用任何API,因此可能存在一些不稳定性和容易被反爬虫机制封禁的风险。建议在使用时注意合理使用代理、设置请求头等防反爬措施。
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值