今天记录在爬取图片网站时,需要按如下需求展示图片和答案:

本次爬取数据量不大,爬取内容也都集中在一个页面,网站也没有异步加载或反爬措施,但是遇到了三个难点:
难点一:图片链接是lazyload,且全部151条图片链接,分散在两个模块下,第一个模块’//div[@class=“entry-content”]/figure/img’的43条图片链接数据爬取顺利,第二个模块’//div[@class=“entry-content”]/p/img’下的108条图片链接却总是显示只能爬取到第一条数据:

如上图,xpath定位没有问题,但结果却总是只有一条数据,暂时还没有搞清楚为什么,最后改成’//div[@class=“entry-content”]//img’来定位,可以直接两个模块下的链接一起爬取,反而更方便,只是这样的结果多出一条数据(最后一条数据),由于只多出一条,便未修改代码逻辑,直接手动去掉了,爬取图片到本地的代码如下:
import requests
from lxml import etree
import time
url = 'https://verbalearn.com/game-tri-tue/dap-an-duoi-hinh-bat-chu/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'}
img_list = list()
req = requests.get(url,headers=headers)
print(req.status_code)
html = etree.HTML(req.text)
path = '//div[@class="entry-content"]//img'
results = html.xpath(path)
print(len(results))
for result in results:
try:
img_text = result.xpath('./@data-lazy-src')
img_text1 = img_text[0].strip()
print(img_text1)
img_list.append(img_text1)
except IndexError:
continue
print(img_list)

最低0.47元/天 解锁文章

8285

被折叠的 条评论
为什么被折叠?



