爬虫36计之1.1 爬取高清MM图片壁纸

爬取彼岸花免费壁纸

技术服务于生活,今天爬虫开篇就为广大的程序猿谋福利,爬取mm图片。

为什么要选择彼岸花为案例?因为这个站比较有良心,能开放下载的图片没有加水印,其次图片质量也很高(主要还是我喜欢看)。

主页分析

首先我们来分析下入口页面。

我们用谷歌浏览器打开http://www.netbian.com/meinv/,可以看到入口页面,里面有各种类型的mm图片,本篇主题就是爬取这个入口下面的免费mm壁纸。

现在我们选择其中一张美图,鼠标右键,选择【检查】,

在这里插入图片描述

从上图我们可以知道以下信息:

  • 图片的跳转地址,在目前a节点的href属性内容;
  • 图片的标题内容,在目前a节点的title属性内容;
  • 再网上看看,可以知道a节点是被包含在li节点里面,同理可知li的父节点为ul,ul的父节点为div,该div的class值为list

知道了图片的基本信息,我们还需要知道下一页面的地址。

滑动页面底部,我们直接选择【2】,鼠标右键点击【检查】

在这里插入图片描述

从图中,我们可以知道,下一页的链接地址;同时我们也发现了他的规律,都是index_序号.htm的格式

/meinv/index_2.htm
/meinv/index_3.htm
...
/meinv/index_178.htm

爬取主页信息

从前面分析可知,页面的入口地址都是“/meinv/index_8.htm”的格式,加上前缀域名"http://www.netbian.com",我们就形成了完整的入口地址:“http://www.netbian.com/meinv/index_8.htm”,现在我们直接请求这个地址看看:

def _category():
    p = 'http://www.netbian.com/meinv/index_8.htm'
    r = requests.get(p).content
    print(r)
    

返回结果如下:

b'<!doctype html>\n<html>\n<head>\n<meta charset="gbk" />\n<title...

可以看到是unicode形式的内容,我们解码下看看:

def _category():
    p = 'http://www.netbian.com/meinv/index_8.htm'
    r = requests.get(p).content.decode('gbk')
    print(r)
    pass

解码后,就返回了比较合适的内容了

<!doctype html>
<html>
<head>
<meta charset="gbk" />
<title>【美女桌面壁纸】高清美女图片-彼岸桌面壁纸</title>
<meta name="keywords" content="美女壁纸,高清美女壁纸,美
...
...

获取到内容了,我们现在就来考虑如何解析,获取详细页面的入口地址和下一页的入口地址。

在这里,我们使用BeautifulSoup和lxml来解析页面内容。

# 解析页面内容
soup = BeautifulSoup(r, 'lxml')
x = soup.select('.list')[0]
lis = x.find_all('li')
for li in lis:
    print(li)

结果如下:

<li><a href="/desk/21005.htm" target="_blank" title="白色睡衣美女姜璐壁纸 更新时间:2018-08-28"><img alt="白色睡衣美女姜璐壁纸" src="http://img.netbian.com/file/newc/5a5708a78b28245062c86446384fc701.jpg"/><b>白色睡衣美女姜璐壁纸</b></a></li>
<li><a href="/desk/21004.htm" target="_blank" title="于思琪 海边海滩荡秋千美女壁纸 更新时间:2018-08-28"><img alt="于思琪 海边海滩荡秋千美女壁纸" src="http://img.netbian.com/file/newc/23019f152d2f1ad449ef890de0335e8f.jpg"/><b>于思琪 海边海滩荡秋千美女壁纸</b></a></li>
<li>
<div class="pic_box"><a href="https://pic.netbian.com/" target="_blank"><img alt="4k壁纸" src="http://img.netbian.com/file/2021/0312/021b2748efe5bcdebfb828083b6747f4.jpg"/></a></div><p><a href="https://pic.netbian.com/" style="color:#FF0000;" target="_blank">【4K壁纸】</a></p>
</li>
...
...


从返回内容中,我们看到了我们需要的内容。现在我们只需从里面提取出来我们需要的内容接口。

href = 'http://www.netbian.com/' + li.find('a')['href'].strip()
name = li.find('b').text.strip()
print(href, name)

到目前为止,我们已经找到并提取了详细页面的入口地址和名字;

对于下一页,它的地址规则我们已经找到,我们直接按着规则生成即可。

详细页面分析

由前面章节分析可知,详细页面的入口地址是“/desk/23358.htm”,再加上前缀域名http://www.netbian.com,形成里完整的地址“http://www.netbian.com/desk/23358.htm”。

打开详细页面

http://www.netbian.com/desk/23358.htm

我们已经看到了我们需要的图片,还是像之前一样,选择图片,鼠标右键,点击【检查】,

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-P1uMLqTv-1622217365662)(https://note.youdao.com/yws/api/personal/file/WEB02fa5a936aee3fb5c5323a500a9dca30?method=download&shareKey=084c482c5a599df5959ea13d62522482)]

从图片中,我们就可以知道图片的地址,我们根据这个地址直接下载即可。

爬取详细页面

详细页面的爬取和主页面的爬取也是一样,直接获取内容然后解析。

p = 'http://www.netbian.com//desk/21005.htm'
r = requests.get(p).content.decode('gbk')
soup = BeautifulSoup(r, 'lxml')
i = soup.select('.pic')[0]
x = i.find('img')['src']

解析到的内容为:

http://img.netbian.com/file/2018/0827/f759e892e6555b27fda5ec828fccacc9.jpg

然后用浏览器打开

http://www.netbian.com//desk/21005.htm

对比下图片地址是否一样即可。

在这里,解析出来的图片是没有错的。

接下里是保存图片。

def _save_img(img_url, p):
    name = img_url[img_url.rindex("/") + 1:]
    r = requests.get(img_url, headers=_HEADER, stream=True)
    if r.status_code == 200:
        # 判断目录,如果不存在则创建
        root = _IMAGE_SAVE_PATH + str(p)
        if not os.path.exists(root):
            os.makedirs(root)
        if os.path.exists(root + '/' + name):  # 如果已存在就不再保存
            return
        with open(root + '/' + name, 'wb')as f:
            f.write(r.content)

    print(f'[*] Save Image Done:{name}')
    del r

保存图片比较简单,直接下载图片,然后保存即可。

至此,已经完成所有步骤。现在我们连接全部,跑起来,看看效果。

运行结果如下(截取部分):

...

[*] Start handle detail src:http://www.netbian.com//desk/20849.htm,name:绯月樱壁纸
[*] Save Image Done:a62e26b8043abb0cd4124c34cf02ff8a.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20844.htm,name:Silin黑色紧身线衣美女壁纸
[*] Save Image Done:05be04f4f4d4cfa33fd69244504057c9.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20843.htm,name:Silin 居家性感美女壁纸
[*] Save Image Done:3d045cd029124daa96af3d744845dd2a.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20837.htm,name:粉色小睡裙美女芸斐壁纸
[*] Save Image Done:eafa43e884c3c66f7a8ac1ea89aa70f3.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20833.htm,name:芸斐 粉色裙衣美女壁纸
[*] Save Image Done:fa3aaccb23d6c9ce7e0da759d2aee731.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20829.htm,name:小羽 浴缸 白色内衣美女2k壁纸
[*] Save Image Done:bf8da25ef2e9b55c11e41a61a92231fb.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20818.htm,name:小羽 缸里的美女壁纸
[*] Save Image Done:db19ae2178e2151b35a5c83d5636befb.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20812.htm,name:小羽 黑色内衣性感美女壁纸
[*] Save Image Done:3d5e2d59d44c26a06fc660e6512ff30d.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20811.htm,name:气质美女小羽桌面壁纸
[*] Save Image Done:bc394152f4597711a9958b2b320ff237.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20810.htm,name:凌雪 齐肩短发香肩美女2k壁纸
[*] Save Image Done:1b9338265ef3f24e328e727da8e2ebec.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20801.htm,name:小羽 粉色睡衣美女2k壁纸
[*] Save Image Done:6ae9d10bea9f05923daa3dbf1894bdc0.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20800.htm,name:小羽 齐肩短发美女 黑色内衣美女2k壁纸
[*] Save Image Done:2a80b1b13c0a43da2285afbb56d1f56a.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20799.htm,name:小羽 黑色衣服内衣 高跟鞋 美女壁纸
[*] Save Image Done:b5ebc005404db5ee5e216cae934b497d.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20781.htm,name:戴帽子的清纯美女2k壁纸
[*] Save Image Done:c04067f153deb6f661699a7e7789e191.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20778.htm,name:Huhu 时尚美女壁纸
[*] Save Image Done:5fb4aaebd02d1e406f00bd260058b3c0.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20752.htm,name:美女芸斐高清壁纸
[*] Save Image Done:abdfde398512eff713058afaf01e105b.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20751.htm,name:芸斐 美女模特芸斐壁纸
[*] Save Image Done:fb45dd5ecdbc84e9ccfc70f6999730d4.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20728.htm,name:漂亮空姐凌雪桌面壁纸
[*] Save Image Done:4fde6a9872e4a133b1c05144e23cda39.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20726.htm,name:凌雪 气质空姐美女壁纸
[*] Save Image Done:bcfa7b1afecf0449755fd99cf1e8a51d.jpg

...

保存的图片如下:

在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

慕容卡卡

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值