通过关键词爬取百度图片——Python爬虫

最新推荐文章于 2022-11-07 22:27:48 发布

竹溪听风

最新推荐文章于 2022-11-07 22:27:48 发布

阅读量4.6k

点赞数 22

分类专栏： Python 文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_42453746/article/details/87724348

版权

Python 专栏收录该内容

9 篇文章

订阅专栏

本文详细介绍了使用Python爬取百度图片的方法，包括如何利用requests库获取网页信息，使用正则表达式提取图片链接，以及如何下载图片并保存到本地文件夹。文章还分享了一个小技巧，通过修改URL参数使翻页模式变为传统翻页，便于爬取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬取百度图片

在这里我们先列出本次爬虫的步骤（思路很重要）：

1、通过requests获取网页信息
2、找到图片链接在哪里
3、创建文件夹，将图片下载到本地

在开始之前，先讲一下百度图片翻页的一个小细节（看图）：

这是下滑加载更多的翻页方式（对我们的爬虫造成了干扰）
这种是传统的翻页方式（我们爬的是这种网页）

那么，我们怎么把网页变成我们想要的呢？在这里教大家一个小技巧：

https://image.baidu.com/search/ index ?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1550561905560_R&pv=&ic=&nc=1&z=&hd=&latest=&copyright=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=Python

将index改为 flip，就可以将翻页模式变成传统翻页了（很神奇吧）

进入正文啦！

第一步，requests请求

class是类封装，不懂的话可以上网找下教程，或者我有空写一篇教程…

import requests
import os
import re
#word是要爬的图片名字
word=input("请输入关键词：")
#j用来标记图片数量
j=1

class PaChong:
#		初始化
    def __init__(self,word,i):
        #path是图片存放的地方
        self.path="F:/"+word+"/"
#         第几页
        self.page=i/20+1
        #如果文件夹不存在，则创建文件夹
        if not os.path.exists(self.path):
            os.mkdir(self.path)
            
    #发出requests请求
    def requests_get(self,url):
        req=requests.get(url,timeout=30)
        req.encoding="utf-8"
        self.req=req.text

第二步，通过正则找到图片链接

通过图片链接，在源代码中我们可以找到存放链接的key：objURL，这样我们就可以通过正则找出所有的链接
在这里插入图片描述

#正则找到图片链接
    def  get_imgurl(self):
        imgurls=re.findall('"objURL":"(.*?)"',self.req,re.S)
        self.imgurls=imgurls

第三步，下载图片到本地+循环翻页爬取
链接里的word是关键词的参数，pn参数是用来翻页的

    #下载图片到本地
    def download(self):
        global j
        for imgurl in self.imgurls:
            path=self.path+word+str(j)
            with open(path+".jpg","wb") as f:
                r=requests.get(imgurl)
                f.write(r.content)
            print("%s下载成功"%path)
            j+=1
        print("第{}页下载结束！".format(self.page))
#通过pn参数实现翻页，第一页为0，,间隔为20
for i in range(0,60,20):
    url="https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word={0}&pn={1}&gsm=50&ct=&ic=0&lm=-1&width=0&height=0".format(word,i)
    Run=PaChong(word,i)
    Run.requests_get(url)
    Run.get_imgurl()
    Run.download()

在这里我们输入关键词：剑网三，以下是代码运行结果（会玩剑网三的博友可以带我玩呀嘻嘻）：
在这里插入图片描述

代码整合：

import requests
import os
import re
#word是要爬的图片名字
word=input("请输入关键词：")
#j用来标记图片数量
j=1
class PaChong:
    def __init__(self,word,i):
        #path是图片存放的地方
        self.path="F:/"+word+"/"
#         第几页
        self.page=i/20+1
        #如果文件夹不存在，则创建文件夹
        if not os.path.exists(self.path):
            os.mkdir(self.path)
    #发出requests请求
    def requests_get(self,url):
        req=requests.get(url,timeout=30)
        req.encoding="utf-8"
        self.req=req.text
    
    #正则找到图片链接
    def  get_imgurl(self):
        imgurls=re.findall('"objURL":"(.*?)"',self.req,re.S)
        self.imgurls=imgurls
    #下载图片到本地
    def download(self):
        global j
        for imgurl in self.imgurls:
            path=self.path+word+str(j)
            #写入文件
            with open(path+".jpg","wb") as f:
                r=requests.get(imgurl)
                f.write(r.content)
            print("%s下载成功"%path)
            j+=1
        print("第{}页下载结束！".format(self.page))
#通过pn参数实现翻页，第一页为0，,间隔为20
for i in range(0,60,20):
    url="https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word={0}&pn={1}&gsm=50&ct=&ic=0&lm=-1&width=0&height=0".format(word,i)
    Run=PaChong(word,i)
    Run.requests_get(url)
    Run.get_imgurl()
    Run.download()