30 分钟 Python 爬虫教程_for image_element in image_elements

m0_60607895

于 2024-04-21 02:16:51 发布

阅读量609

点赞数 30

分类专栏： 2024年程序员学习文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/m0_60607895/article/details/138017877

版权

2024年程序员学习专栏收录该内容

269 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024c （备注Python）

正文

使用 Selenium 的 webdriver 来打开这个页面

driver = webdriver.Firefox(executable_path=r’geckodriver.exe’)
driver.get(url)

打开浏览器窗口到指定的 URL。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一个远程控制的 Firefox 窗口。

相当容易对吧？如果以上所说你都正确完成了，你已经攻克了最难的那部分了，此时你应该看到一个类似于以上图片所示的浏览器窗口。

接下来我们就应该向下滚动以便更多的图片可以加载出来，然后我们才能够将它们下载下来。我们还想再等几秒钟，以便万一网络连接太慢了导致图片没有完全加载出来。由于 Unsplash 网站是使用 React 构建的，等个 5 秒钟似乎已经足够”慷慨”了，那就使用 Python 的 time 包等个 5 秒吧，我们还要使用一些 Javascript 代码来滚动网页——我们将会用到 [window.scrollTo()]( ) 函数来实现这个功能。将以上所说的合并起来，最终你的代码应该像这样：

import time
from selenium import webdriver

url = “https://unsplash.com”

driver = webdriver.Firefox(executable_path=r’geckodriver.exe’)
driver.get(url)

向下滚动页面并且等待 5 秒钟

driver.execute_script(“window.scrollTo(0,1000);”)
time.sleep(5) time
from selenium import webdriver

url = “https://unsplash.com”

driver = webdriver.Firefox(executable_path=r’geckodriver.exe’)
driver.get(url)

向下滚动页面并且等待 5 秒钟

driver.execute_script(“window.scrollTo(0,1000);”)
time.sleep(5)

滚动页面并等待 5 秒钟。

测试完以上代码后，你应该会看到浏览器的页面稍微往下滚动了一些。下一步我们要做的就是找到我们要下载的那些图片。在探索了一番 React 生成的代码之后，我发现了我们可以使用一个CSS 选择器来定位到网页上画廊的图片。网页上的布局和代码在以后可能会发生改变，但目前我们可以使用 #gridMulti img 选择器来获得屏幕上可见的所有 <img> 元素。

我们可以通过 [find_elements_by_css_selector()]( ) 得到这些元素的一个列表，但我们想要的是这些元素的 src 属性。我们可以遍历这个列表并一一抽取出 src 来：

import time
from selenium import webdriver

url = “https://unsplash.com”

driver = webdriver.Firefox(executable_path=r’geckodriver.exe’)
driver.get(url)

driver.execute_script(“window.scrollTo(0,1000);”)
time.sleep(5)

选择图片元素并打印出他们的 URL

image_elements = driver.find_elements_by_css_selector(“#gridMulti img”)
for image_element in image_elements:
image_url = image_element.get_attribute(“src”)
print(image_url) time
from selenium import webdriver

url = “https://unsplash.com”

driver = webdriver.Firefox(executable_path=r’geckodriver.exe’)
driver.get(url)

driver.execute_script(“window.scrollTo(0,1000);”)
time.sleep(5)

选择图片元素并打印出他们的 URL

image_elements = driver.find_elements_by_css_selector(“#gridMulti img”)
for image_element in image_elements:
image_url = image_element.get_attribute(“src”)
print(image_url)

选择图片元素并获得图片 URL。

现在为了真正获得我们找到的图片，我们会使用 requests 库和 PIL 的部分功能，也就是 Image 。我们还会用到 io 库里面的 BytesIO 来将图片写到文件夹 ./images/ 中（在项目文件夹中创建）。现在把这些都一起做了，我们要先往每张图片的 URL 链接发送一个 HTTP GET 请求，然后使用 Image 和 BytesIO 来将返回的图片存储起来。以下是实现这个功能的其中一种方式：

import requests
import time
from selenium import webdriver
from PIL import Image
from io import BytesIO

url = “https://unsplash.com”

driver = webdriver.Firefox(executable_path=r’geckodriver.exe’)
driver.get(url)

driver.execute_script(“window.scrollTo(0,1000);”)
time.sleep(5)
image_elements = driver.find_elements_by_css_selector(“#gridMulti img”)
i = 0

for image_element in image_elements:
image_url = image_element.get_attribute(“src”)

发送一个 HTTP GET 请求，从响应内容中获得图片并将其存储

image_object = requests.get(image_url)
image = Image.open(BytesIO(image_object.content))
image.save(“./images/image” + str(i) + “.” + image.format, image.format)
i += 1 requests
import time
from selenium import webdriver
from PIL import Image
from io import BytesIO

url = “https://unsplash.com”

driver = webdriver.Firefox(executable_path=r’geckodriver.exe’)
driver.get(url)

driver.execute_script(“window.scrollTo(0,1000);”)
time.sleep(5)
image_elements = driver.find_elements_by_css_selector(“#gridMulti img”)

现在能在网上找到很多很多的学习资源，有免费的也有收费的，当我拿到1套比较全的学习资源之前，我并没着急去看第1节，我而是去审视这套资源是否值得学习，有时候也会去问一些学长的意见，如果可以之后，我会对这套学习资源做1个学习计划，我的学习计划主要包括规划图和学习进度表。

分享给大家这份我薅到的免费视频资料，质量还不错，大家可以跟着学习

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

ip1024c （备注python）**
[外链图片转存中…(img-jWekK0uS-1713636993724)]

m0_60607895

关注

30
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
30 分钟 Python 爬虫教程_for image_element in image_elements

在探索了一番 React 生成的代码之后，我发现了我们可以使用一个CSS 选择器来定位到网页上画廊的图片。现在能在网上找到很多很多的学习资源，有免费的也有收费的，当我拿到1套比较全的学习资源之前，我并没着急去看第1节，我而是去审视这套资源是否值得学习，有时候也会去问一些学长的意见，如果可以之后，我会对这套学习资源做1个学习计划，我的学习计划主要包括规划图和学习进度表。如果以上所说你都正确完成了，你已经攻克了最难的那部分了，此时你应该看到一个类似于以上图片所示的浏览器窗口。来将返回的图片存储起来。
复制链接

扫一扫