爬取彼岸网明星图片

爬取彼岸网明星图片:

背景:彼岸网是一个大型的图片网站,上面有很多的图片,这次我们就来爬取彼岸网

第一步:

准备Python爬取准备前的各种库:

import requests
from lxml import etree
import os
import time
import random

没有上面库的,通过pip 命令去安装,例如:pip install 库名

下面我们就开始了:

我们先要拿到网页的一个响应数据:

def get_url():
  headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
    }
    url='http://pic.netbian.com/4kmeinv/index.html'
    resp=requests.get(url,headers=headers)
    print(resp.text)
   

如果,上面这个样的话会出现乱码:

如图1:
在这里插入图片描述

我们在上面加一个编码格式就可以了:

resp.encoding = 'GBK'
彼岸网的编码格式是GBK
但是其他每个网站编码格式不一样,但是都在UTF-8或者GBK之间。
def get_url():
  headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
    }
    url='http://pic.netbian.com/4kmeinv/index.html'
    resp=requests.get(url,headers=headers)
    resp.encoding = 'GBK'
    print(resp.text)

如图2:
在这里插入图片描述

然后用xpath定位:

图3:

在这里插入图片描述

图4:

在这里插入图片描述

图5:

在这里插入图片描述

html = etree.HTML(resp.text)
img_src = html.xpath('//ul[@class="clearfix"]/li/a/img/@src')
 print(img_src)
img_name = html.xpath('//ul[@class="clearfix"]/li/a/img/@alt')
print(img_name)

我们通过上面的xpath成功定位到图片的地址,下面我们就通过地址拼接来找到图片地址:

img_src = ['http://pic.netbian.com' + x for x in img_src]

图6:
在这里插入图片描述

图7

在这里插入图片描述

下面是数据的持久化,也就是图片的储存:

    path='彼岸明星图片'#图片保存文件夹
    for src, name in zip(img_src,img_name):
        img_content=requests.get(src,headers=headers).content#再次发起请求,请求图片的地址并且把图片转成二进制数据,使计算机可以进行储存
        img_name=name+'.jpg'#增加图片的后缀名,方便以图片形式打开
        if not os.path.exists(path):#用import os 库,进行文件夹的创建
            os.mkdir(path)#如果图片保存文件夹没有就进行创建文件夹
        with open(path+'./%s'%img_name,'wb') as f:#图片文件二进制形式存储
            f.write(img_content)
            print("正在下载:",img_name)
    time.sleep(random.randint(1,2))#设置时间,防止网站反爬虫机制发现。

上面,我们是不是只能访问一页的数据,我们想爬取多页的数据怎么办呢?

我们通过观察网站信息分析发现:

图8

在这里插入图片描述

我们就来设置一下分页:

url='http://pic.netbian.com/4kmeinv/index_{}.html'.format(page)

通过上面就可以设置分页

上面代码我们需要优化一下,下面是优化后的完整代码:

import requests
from lxml import etree
import os
import time
import random
path='彼岸明星图片'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
    }
def get_url(page):
    url='http://pic.netbian.com/4kmeinv/index_{}.html'.format(page)
    resp=requests.get(url,headers=headers)
    resp.encoding = 'GBK'
    response=resp.text
    return response
def main(index):
    html=etree.HTML(index)
    img_src = html.xpath('//ul[@class="clearfix"]/li/a/img/@src')
    #print(img_src)
    img_src=['http://pic.netbian.com'+ x for x in img_src]
    img_name=html.xpath('//ul[@class="clearfix"]/li/a/img/@alt')
    #print(img_name)
    for src, name in zip(img_src,img_name):
        img_content=requests.get(src,headers=headers).content
        img_name=name+'.jpg'
        if not os.path.exists(path):
            os.mkdir(path)
        with open(path+'./%s'%img_name,'wb') as f:
            f.write(img_content)
            print("正在下载:",img_name)
    time.sleep(random.randint(1,2))

if __name__ == '__main__':
   ss=str(input('请输入你想要的图片:'))
   a=int(input())
for page in range(1,a):#分页查询
    index=get_url(page)
    main(index)

效果:

图9:
在这里插入图片描述

图10:
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Deng872347348

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值