爬取彼岸网明星图片

最新推荐文章于 2023-12-07 04:54:05 发布

Deng872347348

最新推荐文章于 2023-12-07 04:54:05 发布

阅读量994

点赞数 1

分类专栏： Python爬虫文章标签： python

本文链接：https://blog.csdn.net/Deng872347348/article/details/113755639

版权

Python爬虫专栏收录该内容

27 篇文章 5 订阅

订阅专栏

该博客详细介绍了如何使用Python和lxml库从彼岸网爬取明星图片。首先，通过设置User-Agent避免被识别为机器人，然后处理GBK编码以解决乱码问题。接着，利用XPath定位图片URL和名称，并通过循环下载图片，同时添加随机延迟以防止反爬机制。最后，通过修改URL格式实现分页爬取，允许用户输入想要下载的图片页数。

摘要由CSDN通过智能技术生成

爬取彼岸网明星图片：

背景：彼岸网是一个大型的图片网站，上面有很多的图片，这次我们就来爬取彼岸网

第一步：

准备Python爬取准备前的各种库：

import requests
from lxml import etree
import os
import time
import random

没有上面库的，通过pip 命令去安装，例如：pip install 库名

下面我们就开始了：

我们先要拿到网页的一个响应数据：

def get_url():
  headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
    }
    url='http://pic.netbian.com/4kmeinv/index.html'
    resp=requests.get(url,headers=headers)
    print(resp.text)

如果，上面这个样的话会出现乱码：

如图1：
在这里插入图片描述

我们在上面加一个编码格式就可以了：

resp.encoding = 'GBK'
彼岸网的编码格式是GBK
但是其他每个网站编码格式不一样，但是都在UTF-8或者GBK之间。

def get_url():
  headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
    }
    url='http://pic.netbian.com/4kmeinv/index.html'
    resp=requests.get(url,headers=headers)
    resp.encoding = 'GBK'
    print(resp.text)

如图2：
在这里插入图片描述

然后用xpath定位：

图3：

在这里插入图片描述

图4：

在这里插入图片描述

图5：

在这里插入图片描述

html = etree.HTML(resp.text)
img_src = html.xpath('//ul[@class="clearfix"]/li/a/img/@src')
 print(img_src)
img_name = html.xpath('//ul[@class="clearfix"]/li/a/img/@alt')
print(img_name)

我们通过上面的xpath成功定位到图片的地址，下面我们就通过地址拼接来找到图片地址：

img_src = ['http://pic.netbian.com' + x for x in img_src]

图6：
在这里插入图片描述

图7

在这里插入图片描述

下面是数据的持久化，也就是图片的储存：

    path='彼岸明星图片'#图片保存文件夹
    for src, name in zip(img_src,img_name):
        img_content=requests.get(src,headers=headers).content#再次发起请求，请求图片的地址并且把图片转成二进制数据，使计算机可以进行储存
        img_name=name+'.jpg'#增加图片的后缀名，方便以图片形式打开
        if not os.path.exists(path):#用import os 库，进行文件夹的创建
            os.mkdir(path)#如果图片保存文件夹没有就进行创建文件夹
        with open(path+'./%s'%img_name,'wb') as f:#图片文件二进制形式存储
            f.write(img_content)
            print("正在下载：",img_name)
    time.sleep(random.randint(1,2))#设置时间，防止网站反爬虫机制发现。

上面，我们是不是只能访问一页的数据，我们想爬取多页的数据怎么办呢？

我们通过观察网站信息分析发现：

图8

在这里插入图片描述

我们就来设置一下分页：

url='http://pic.netbian.com/4kmeinv/index_{}.html'.format(page)

通过上面就可以设置分页

上面代码我们需要优化一下，下面是优化后的完整代码：

import requests
from lxml import etree
import os
import time
import random
path='彼岸明星图片'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
    }
def get_url(page):
    url='http://pic.netbian.com/4kmeinv/index_{}.html'.format(page)
    resp=requests.get(url,headers=headers)
    resp.encoding = 'GBK'
    response=resp.text
    return response
def main(index):
    html=etree.HTML(index)
    img_src = html.xpath('//ul[@class="clearfix"]/li/a/img/@src')
    #print(img_src)
    img_src=['http://pic.netbian.com'+ x for x in img_src]
    img_name=html.xpath('//ul[@class="clearfix"]/li/a/img/@alt')
    #print(img_name)
    for src, name in zip(img_src,img_name):
        img_content=requests.get(src,headers=headers).content
        img_name=name+'.jpg'
        if not os.path.exists(path):
            os.mkdir(path)
        with open(path+'./%s'%img_name,'wb') as f:
            f.write(img_content)
            print("正在下载：",img_name)
    time.sleep(random.randint(1,2))

if __name__ == '__main__':
   ss=str(input('请输入你想要的图片:'))
   a=int(input())
for page in range(1,a):#分页查询
    index=get_url(page)
    main(index)

效果：

图9：
在这里插入图片描述