python之图片爬取

最新推荐文章于 2024-05-08 02:53:37 发布

程序员丸子

最新推荐文章于 2024-05-08 02:53:37 发布

阅读量699

点赞数 24

文章标签： python 开发语言学习爬虫数据库

本文链接：https://blog.csdn.net/lyy2017175913/article/details/137678581

版权

今天来分享如何利用python爬取图片网站的图片，系好安全带，现在发车。

首先，理清思路。

选定一个图片网站；
对网站进行分析，查看图片地址是否在网页源代码中；
对图片地址进行分析，寻找规律；
将规律转化为python的逻辑语句，将图片爬取并保存到电脑本地中。

按照以上思路，逐步进行。

首先，百度搜索目标网站，以 ‘性感美女’为关键词进行检索，并记录检索后的网址。（ps：学习为主，莫要沉迷）

在网页上右击鼠标，选择 “网页源代码” 查看上述图片信息是否在其中。如下图所示，所有信息都在网页源代码中。点击图片后，跳转到图片对应网址中，如下图。

同样，鼠标右键查看“网页源代码”，发现这一网页上的所有图片地址，按照顺序1，2，3，4等，进行排列。至此，我们找到了图片网址规律。

最后，我们将分析出的规律转化为python的逻辑语言。

完整代码如下，关键代码的解析大家可以查看代码后的注解。代码中提到的 “xpath路径” 和 “User-Agent” 获取方法可以参照往期文章 “python之爬取小说”，此处不再做重复说明。

代码放在下面，未作精修。大家可以直接拿取，也欢迎大家来交流自己对代码的理解和修改。


import requests   #导入requests函数，请求网页
from lxml import etree  #导入etree对网页内容进行处理
import os  #导入os函数，建立文件夹
import time  #导入time函数，爬取中进行停歇处理，减轻被爬网页的负担

headers = {
    "User-Agent": "获取自己网页上的User-Agent进行填充"
}
x = input("输入下载几页图片：")   #此处输入的数字决定的是上图中345页中下载多少页
urlbase = '网址'  #网页网址的基础组成部分
#获取url的尾端
s= int(x)+1
listsone = ['list_176_1.html'] #网页网址的尾部做成一个列表
#所有总页面的尾部逐一加入列表listone中
for i in range(2, s):
    endline = 'list_176_' + str(i) + '.html'
    listsone.append(endline)


for Y in range(0, int(x)):   #for循化逐一抓取想下载的所有页内容
    end = listsone[Y]    #提取列表中的网址尾部
    url1 = urlbase + end #拼接成完整网址
    print(url1)  #打印完整网址
    #抓取总界面的所有母链接
    time.sleep(5)
    response = requests.get(url1, headers=headers)
    # print(response.encoding)
    html = response.text.encode('ISO-8859-1').decode('gbk')  #转换编码格式
    imgehtml = etree.HTML(html)  #处理网页内容
    title_lists = imgehtml.xpath('//*[@id="container"]/div/div/div[3]/div/ul/li/a/@title')   #用xpath路径方法获取标题
    link_lists = imgehtml.xpath('//*[@id="container"]/div/div/div[3]/div/ul/li/a/@href')     #获取图片对应网页链接
    #打开母链接下的子页面
    for A, b in zip(title_lists, link_lists):
        url2 = 'https://www.tupianzj.com' + str(b) #拼接子页面完整网址
        #抓取子页面
        time.sleep(5)  #停歇5秒
        response = requests.get(url2, headers=headers)  #和上述一样，请求子页面内容
        html = response.text.encode('ISO-8859-1').decode('gbk') #转换编码格式
        imgehtml = etree.HTML(html)
        title = imgehtml.xpath('//*[@id="container"]/div/div/div[2]/h1/text()')[0] #获取图片名称
        #print(title)
        #以图片名建立文件夹
        path = 'C:\\Users\\15089\\Desktop\\img'  #图片保存路径
        path1 = path + '\\' + title 
        os.makedirs(path1)  #建立以图片名命名的文件夹
        nummax = str(imgehtml.xpath('//*[@id="container"]/div/div/div[2]/div[2]/div[3]/ul/li[1]/a/text()')[0])[1]#获取此图片名下总共图片数
        nummax1 = int(nummax) + 1
        # print(nummax1)
        #获取子页面的所有链接
        name = url2.split("/")[-1].split(".")[0]
        lists = [name]
        for num in range(2, nummax1):
            name1 = name + '_' + str(num)
            lists.append(name1)
        limit = int(nummax)
        # 逐一下载所有图片
        for i in range(0, limit):
            a = lists[i]
            ab = url2.split('/')[-2]
            #拼接图片的链接
            url3 = '网址链接' + ab + '/' + a + '.html'
            time.sleep(5)
            response = requests.get(url3, headers=headers)
            response.encoding = 'utf-8'
            imgehtml = etree.HTML(response.text)
            imge = imgehtml.xpath('//div[@id="bigpic"]/a[2]/img/@src')[0]
            #print(imge)
            #获取图片
            time.sleep(5)
            response = requests.get(imge, headers=headers)
            name = url3.split("/")[-1].split(".")[0]
            filename = name + ".jpg"
            path2 = path + '\\' + title + '\\'
            with open(path2 + filename, 'wb') as f:
                f.write(response.content)   #图片为二进制格式，所以须写入content格式
    Y = Y+1
    print("第"+str(Y)+"页下载完成")

以上就是图片爬取的全部内容了，今天的分享到此结束。
祝愿大家每天进步一点点，生活充实又快乐！

关于Python学习指南

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

包括：Python激活码+安装包、Python web开发，Python爬虫，Python数据分析，人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python！

👉Python所有方向的学习路线👈

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（全套教程文末领取）

在这里插入图片描述

👉Python学习视频600合集👈

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

在这里插入图片描述

温馨提示：篇幅有限，已打包文件夹，获取方式在：文末

👉Python70个实战练手案例&源码👈

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉Python大厂面试资料👈

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

在这里插入图片描述

👉Python副业兼职路线&方法👈

学好 Python 不论是就业还是做副业赚钱都不错，但要学会兼职接单还是要有一个学习规划。

在这里插入图片描述

👉 这份完整版的Python全套学习资料已经上传，朋友们如果需要可以扫描下方CSDN官方认证二维码或者点击链接免费领取【保证100%免费】

程序员丸子

关注

24
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
python之图片爬取

今天来分享如何利用python爬取图片网站的图片，系好安全带，现在发车。首先，理清思路。选定一个图片网站；对网站进行分析，查看图片地址是否在网页源代码中；对图片地址进行分析，寻找规律；将规律转化为python的逻辑语句，将图片爬取并保存到电脑本地中。按照以上思路，逐步进行。首先，百度搜索目标网站，以 ‘性感美女’为关键词进行检索，并记录检索后的网址。（ps：学习为主，莫要沉迷在网页上右击鼠标，选择 “网页源代码” 查看上述图片信息是否在其中。如下图所示，所有信息都在网页源代码中。
复制链接

扫一扫