python—懒加载之爬取站长图片

  最近在学习xpath,当爬取站长素材图片时遇到了以下问题,记录一下。

  当利用class属性在浏览器中测试是能出结果的,但在python中却得到了空值

  于是我选择了使用js-do值试试,没想到python中也出结果了

  但是却是相同的src。

  经过上网查发现这是懒加载,当我们刚开始进入到一个具有懒加载的页面时,没被加载出来的图片都是一个src,当我们下滑拖动加载完成后,图片的src也会随之变化,这个src才是我们所需要的。

 但是我们如何获得这个正确的src呢,前后src的变量名并未发生改变,经过观察我们发现有一个叫

data-original 属性里面的值和src中的值是相同的

 

直接利用这个属性值,下载成功

  • 9
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要使用Python的requests库爬取百度图片,您可以按照以下步骤进行操作: 1. 安装requests库:如果您还没有安装requests库,可以使用以下命令进行安装: ``` pip install requests ``` 2. 编写爬取代码:下面是一个简单的例子,演示如何使用requests库爬取百度图片的搜索结果: ```python import requests def download_images(keyword, num_images): # 构建百度图片搜索的URL search_url = f'https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&word={keyword}&pn=0&rn={num_images}' # 发送GET请求 response = requests.get(search_url) # 处理响应结果 if response.status_code == 200: # 获取图片URL image_urls = [data['middleURL'] for data in response.json().get('data', []) if 'middleURL' in data] # 下载图片 for i, url in enumerate(image_urls): try: response = requests.get(url) with open(f'image{i}.jpg', 'wb') as f: f.write(response.content) print(f'Successfully downloaded image{i}.jpg') except: print(f'Failed to download image{i}.jpg') else: print('请求失败') # 要搜索的关键词和要下载的图片数量 keyword = 'cat' num_images = 10 # 执行爬取 download_images(keyword, num_images) ``` 在上述代码中,我们构建了一个特定的URL,其中包含了搜索关键词和要下载的图片数量。然后,我们发送GET请求来获取搜索结果,并解析响应结果中的图片URL。最后,我们使用requests库下载图片并保存到本地。 请注意,这只是一个简单的示例,实际应用中可能需要更多的处理和错误处理。另外,爬取网站图片可能需要遵守该网站的使用条款和法律法规。请确保遵守相关规定并尊重他人的权益。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值