爬取彼岸花免费壁纸
技术服务于生活,今天爬虫开篇就为广大的程序猿谋福利,爬取mm图片。
为什么要选择彼岸花为案例?因为这个站比较有良心,能开放下载的图片没有加水印,其次图片质量也很高(主要还是我喜欢看)。
主页分析
首先我们来分析下入口页面。
我们用谷歌浏览器打开http://www.netbian.com/meinv/,可以看到入口页面,里面有各种类型的mm图片,本篇主题就是爬取这个入口下面的免费mm壁纸。
现在我们选择其中一张美图,鼠标右键,选择【检查】,
从上图我们可以知道以下信息:
- 图片的跳转地址,在目前a节点的href属性内容;
- 图片的标题内容,在目前a节点的title属性内容;
- 再网上看看,可以知道a节点是被包含在li节点里面,同理可知li的父节点为ul,ul的父节点为div,该div的class值为list
知道了图片的基本信息,我们还需要知道下一页面的地址。
滑动页面底部,我们直接选择【2】,鼠标右键点击【检查】
从图中,我们可以知道,下一页的链接地址;同时我们也发现了他的规律,都是index_序号.htm的格式
/meinv/index_2.htm
/meinv/index_3.htm
...
/meinv/index_178.htm
爬取主页信息
从前面分析可知,页面的入口地址都是“/meinv/index_8.htm”的格式,加上前缀域名"http://www.netbian.com",我们就形成了完整的入口地址:“http://www.netbian.com/meinv/index_8.htm”,现在我们直接请求这个地址看看:
def _category():
p = 'http://www.netbian.com/meinv/index_8.htm'
r = requests.get(p).content
print(r)
返回结果如下:
b'<!doctype html>\n<html>\n<head>\n<meta charset="gbk" />\n<title...
可以看到是unicode形式的内容,我们解码下看看:
def _category():
p = 'http://www.netbian.com/meinv/index_8.htm'
r = requests.get(p).content.decode('gbk')
print(r)
pass
解码后,就返回了比较合适的内容了
<!doctype html>
<html>
<head>
<meta charset="gbk" />
<title>【美女桌面壁纸】高清美女图片-彼岸桌面壁纸</title>
<meta name="keywords" content="美女壁纸,高清美女壁纸,美
...
...
获取到内容了,我们现在就来考虑如何解析,获取详细页面的入口地址和下一页的入口地址。
在这里,我们使用BeautifulSoup和lxml来解析页面内容。
# 解析页面内容
soup = BeautifulSoup(r, 'lxml')
x = soup.select('.list')[0]
lis = x.find_all('li')
for li in lis:
print(li)
结果如下:
<li><a href="/desk/21005.htm" target="_blank" title="白色睡衣美女姜璐壁纸 更新时间:2018-08-28"><img alt="白色睡衣美女姜璐壁纸" src="http://img.netbian.com/file/newc/5a5708a78b28245062c86446384fc701.jpg"/><b>白色睡衣美女姜璐壁纸</b></a></li>
<li><a href="/desk/21004.htm" target="_blank" title="于思琪 海边海滩荡秋千美女壁纸 更新时间:2018-08-28"><img alt="于思琪 海边海滩荡秋千美女壁纸" src="http://img.netbian.com/file/newc/23019f152d2f1ad449ef890de0335e8f.jpg"/><b>于思琪 海边海滩荡秋千美女壁纸</b></a></li>
<li>
<div class="pic_box"><a href="https://pic.netbian.com/" target="_blank"><img alt="4k壁纸" src="http://img.netbian.com/file/2021/0312/021b2748efe5bcdebfb828083b6747f4.jpg"/></a></div><p><a href="https://pic.netbian.com/" style="color:#FF0000;" target="_blank">【4K壁纸】</a></p>
</li>
...
...
从返回内容中,我们看到了我们需要的内容。现在我们只需从里面提取出来我们需要的内容接口。
href = 'http://www.netbian.com/' + li.find('a')['href'].strip()
name = li.find('b').text.strip()
print(href, name)
到目前为止,我们已经找到并提取了详细页面的入口地址和名字;
对于下一页,它的地址规则我们已经找到,我们直接按着规则生成即可。
详细页面分析
由前面章节分析可知,详细页面的入口地址是“/desk/23358.htm”,再加上前缀域名http://www.netbian.com,形成里完整的地址“http://www.netbian.com/desk/23358.htm”。
打开详细页面
http://www.netbian.com/desk/23358.htm
我们已经看到了我们需要的图片,还是像之前一样,选择图片,鼠标右键,点击【检查】,
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-P1uMLqTv-1622217365662)(https://note.youdao.com/yws/api/personal/file/WEB02fa5a936aee3fb5c5323a500a9dca30?method=download&shareKey=084c482c5a599df5959ea13d62522482)]
从图片中,我们就可以知道图片的地址,我们根据这个地址直接下载即可。
爬取详细页面
详细页面的爬取和主页面的爬取也是一样,直接获取内容然后解析。
p = 'http://www.netbian.com//desk/21005.htm'
r = requests.get(p).content.decode('gbk')
soup = BeautifulSoup(r, 'lxml')
i = soup.select('.pic')[0]
x = i.find('img')['src']
解析到的内容为:
http://img.netbian.com/file/2018/0827/f759e892e6555b27fda5ec828fccacc9.jpg
然后用浏览器打开
http://www.netbian.com//desk/21005.htm
对比下图片地址是否一样即可。
在这里,解析出来的图片是没有错的。
接下里是保存图片。
def _save_img(img_url, p):
name = img_url[img_url.rindex("/") + 1:]
r = requests.get(img_url, headers=_HEADER, stream=True)
if r.status_code == 200:
# 判断目录,如果不存在则创建
root = _IMAGE_SAVE_PATH + str(p)
if not os.path.exists(root):
os.makedirs(root)
if os.path.exists(root + '/' + name): # 如果已存在就不再保存
return
with open(root + '/' + name, 'wb')as f:
f.write(r.content)
print(f'[*] Save Image Done:{name}')
del r
保存图片比较简单,直接下载图片,然后保存即可。
至此,已经完成所有步骤。现在我们连接全部,跑起来,看看效果。
运行结果如下(截取部分):
...
[*] Start handle detail src:http://www.netbian.com//desk/20849.htm,name:绯月樱壁纸
[*] Save Image Done:a62e26b8043abb0cd4124c34cf02ff8a.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20844.htm,name:Silin黑色紧身线衣美女壁纸
[*] Save Image Done:05be04f4f4d4cfa33fd69244504057c9.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20843.htm,name:Silin 居家性感美女壁纸
[*] Save Image Done:3d045cd029124daa96af3d744845dd2a.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20837.htm,name:粉色小睡裙美女芸斐壁纸
[*] Save Image Done:eafa43e884c3c66f7a8ac1ea89aa70f3.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20833.htm,name:芸斐 粉色裙衣美女壁纸
[*] Save Image Done:fa3aaccb23d6c9ce7e0da759d2aee731.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20829.htm,name:小羽 浴缸 白色内衣美女2k壁纸
[*] Save Image Done:bf8da25ef2e9b55c11e41a61a92231fb.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20818.htm,name:小羽 缸里的美女壁纸
[*] Save Image Done:db19ae2178e2151b35a5c83d5636befb.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20812.htm,name:小羽 黑色内衣性感美女壁纸
[*] Save Image Done:3d5e2d59d44c26a06fc660e6512ff30d.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20811.htm,name:气质美女小羽桌面壁纸
[*] Save Image Done:bc394152f4597711a9958b2b320ff237.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20810.htm,name:凌雪 齐肩短发香肩美女2k壁纸
[*] Save Image Done:1b9338265ef3f24e328e727da8e2ebec.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20801.htm,name:小羽 粉色睡衣美女2k壁纸
[*] Save Image Done:6ae9d10bea9f05923daa3dbf1894bdc0.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20800.htm,name:小羽 齐肩短发美女 黑色内衣美女2k壁纸
[*] Save Image Done:2a80b1b13c0a43da2285afbb56d1f56a.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20799.htm,name:小羽 黑色衣服内衣 高跟鞋 美女壁纸
[*] Save Image Done:b5ebc005404db5ee5e216cae934b497d.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20781.htm,name:戴帽子的清纯美女2k壁纸
[*] Save Image Done:c04067f153deb6f661699a7e7789e191.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20778.htm,name:Huhu 时尚美女壁纸
[*] Save Image Done:5fb4aaebd02d1e406f00bd260058b3c0.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20752.htm,name:美女芸斐高清壁纸
[*] Save Image Done:abdfde398512eff713058afaf01e105b.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20751.htm,name:芸斐 美女模特芸斐壁纸
[*] Save Image Done:fb45dd5ecdbc84e9ccfc70f6999730d4.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20728.htm,name:漂亮空姐凌雪桌面壁纸
[*] Save Image Done:4fde6a9872e4a133b1c05144e23cda39.jpg
[*] Start handle detail src:http://www.netbian.com//desk/20726.htm,name:凌雪 气质空姐美女壁纸
[*] Save Image Done:bcfa7b1afecf0449755fd99cf1e8a51d.jpg
...
保存的图片如下: