目录
一、前言
回车桌面网(https://www.enterdesk.com/)是一个具备各种精美图片的网站,里面包含各种丰富的图片资源。此处,将详细讲解爬取其中美女图片资源将其下载到本地。看懂本篇内容后,自己也可以爬取其中想要的类型图片。
回车桌面的首页:
此处仅爬取所框选中的美女图片,看懂本篇后,自己也能做到爬取其他类型的图片!!!
二、爬取下载美女图片
1、抓包分析
爬虫的第一步都是抓包分析(也就是分析网页,从网页源代码中找到自己想要的内容)。
a、分析页面
(1)在回车桌面中点击美女跳转到美女图片的网页
(2)在美女图片页面中,可以看到有各种类型的美女图片和下一页按钮。
(3)点击一种类型的美女图片会跳转到该种类型的美女图片的具体图片界面
(4)点击下一页会跳转到另一页的美女图片页面,里面包含其他的类型的美女图片
(5)在美女图片页面中还有分类标签,点击一种风格类型,则会跳转到该种类型风格的美女图片
美女网页:
各种类型的美女图片:
美女页面的下一页所在位置:
一种类型美女图片的页面:
b、明确需求
根据上面的页面分析,可以明确以下需求:
- 要获取到下一页的url所在页面源代码的位置
- 要获取到每种类型美女图片的url
- 要找到一种类型美女的各种图片下载的url
- 对美女网页进行requests请求,需要有请求头,找到请求网页的url、user-agent、cookie等信息
- 找到各种分类标签的url
c、抓包搜寻
根据以上需求,分析网页源代码,找到想要的内容。
步骤:
- 在美女页面,按下F12,打开开发者界面
- 点击开发者界面左上角的鼠标箭头
- 将箭头移到在美女页面的一种类型的美女图片上并点击一下
- 在开发者界面将会出现此部分的网页源代码
通过以上步骤,抓包寻找,可以分别找到需求部分所要内容:
- 要获取到下一页的url所在页面源代码的位置
- 要获取到每种类型美女图片的url
- 要找到一种类型美女的各种图片下载的url
- 对美女网页进行requests请求,需要有请求头,找到请求网页的url、user-agent、cookie等信息
- 找到各种分类标签的url
d、总结特点
经过抓包搜寻,可以发现:
- 美女页面每一页的url的构造为:以数字进行标记页码
'https://m.mm.enterdesk.com/1.html' 'https://m.mm.enterdesk.com/2.html' 'https://m.mm.enterdesk.com/3.html' 'https://m.mm.enterdesk.com/4.html' 'https://m.mm.enterdesk.com/5.html' .... 'https://m.mm.enterdesk.com/262.html' 'https://m.mm.enterdesk.com/264.html'
- 美女页面的标签的url的构造为:以风格类型的中文拼音+meinv
'https://mm.enterdesk.com/dalumeinv/' 'https://mm.enterdesk.com/rihanmeinv/' 'https://mm.enterdesk.com/gangtaimeinv/' 'https://mm.enterdesk.com/dongmanmeinv/' 'https://mm.enterdesk.com/qingchunmeinv/' 'https://mm.enterdesk.com/oumeimeinv/'
- 其他的url需要通过xPath来定位,根据所在位置的特点来定位
美女页面的各种类型的美女图片链接xPath定位://div[@class="mbig_pic_list_li"]//dd//a/@href 一种类型美女图片的标题xPath定位://h1[@class="m_h1"]/a/text() 一种类型美女图片的图片的urlxPath定位://div[@class="swiper-wrapper"]//img/@src
2、编写爬虫代码
根据上面的抓包分析,可以编写爬虫代码。<