爬去图片插件_Web Scraper爬取图片

本文介绍了如何使用Web Scraper插件爬取网页图片,包括尝试使用旧版插件和结合Python的方法。详细步骤包括设置sitemap、选择器、延迟加载以及数据导出和使用Python脚本下载图片。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

cb984668da3517b404cf2652bac56495.png

最近在倒腾Web Scraper的玩法,爬爬知乎,看看微博之类的,几天体验下来,Web Scraper作为一个轻量级的爬虫插件,能够免除写代码的过程,只需要动动鼠标就能爬取简单的页面数据,在日常生活和学习中使用是完全够了。

唯一不太好的地方就是没办法直接抓取图片,每次在浏览到漂亮小姐姐的时候都无从下手,搞得我很是难受

68ed879a79e57cc4056e9f15d635c404.png

我又不想写代码,于是我就谷歌找找有没有解决方案,终于功夫不负有心人,下面我就来介绍一下如何解决Web Scraper爬图片的问题:

1,重装

第一种解决方案就是下回旧版,旧版的Web scraper在image的选项下面是有下载图片的选项的,新版的是没有的。

我嫌重装太麻烦了,也就没有实战截图,大家如果想直接重装的话就自己下来用吧

百度云密码:f81u​pan.baidu.com

2,Python加Web scraper

第二种方式需要装有Python,下面用知乎演示一下:

  • 先找到要爬取的漂亮小姐姐的网站

084fe2f5cf2b3bcbe59b98affdda025e.png
  • 按F12打开Web scraper,新建一个sitemap

aa3efde46b7b088420adf6efea895549.png
  • 第一行随便输入一个名字,将要爬取的网址复制到第二行,点击create sitemap

e0d81698335ff852f4825e553d7cbe51.png
  • 点击add new selector

f5353fa3c6c17ac9ad30b27ba14e1a49.png
  • ID栏输入选择器的名字
  • Type栏选择Element scroll down
  • 点击Select,点击下图中区域进行选择
  • Delay 输入1000,方便网页加载,如果网速较慢可以填2000或3000
  • 最后点击save selector

44a156ad5424c75093628d098a85013e.png

a3b56811421c8bc62e4b49af49db14af.png

bcbd3f8073c561923c55d7eb4e7d5bc4.png
  • 其实上面那一步主要是为了给点网页的加载时间,毕竟图片比较多
  • 再点击蓝色按钮,添加一个选择器

a647eee47cea83d60eef15d31ee28c4d.png
  • Id输入名字
  • Type选择Image
  • 先点击Multiple多选,点击select后,点击选择两张图片

899be46e394b4b509fb7d643d3d4e9ef.gif
  • 最后选择save selector保存
  • 如下图点击Scraper,点击start,就开始爬取图片了

fa744857a658fc440db8931d1369d61e.png

790964815371723d8e186b2b1c272dd9.png
  • 点击refresh可以看刚刚爬到的数据

992781d037bb0d70bee87d646dcdb04b.png

c7b03c905af98b30c7a10a3cc95544d0.png
  • 如下图选择Export data as CSV可以将数据下载下来

9fd8e04c7a097b19ec3abe95980568b7.png
  • 最后一步,
提取码:mo7i​pan.baidu.com
  • 下载上面的文件,解压后,将刚刚下载的数据复制到解压后的文件夹中

3893eb24c1deb2b2d9a78a72a12de6a8.png
  • 按住[Shift]加右键,打开powershell

9ddcd6b07b7dc6c5e25a7afd8d5dd4aa.gif
  • 输入 "python image-downloader.py" + 数据文件的名字,回车就可以下载了

a3ff35402305d03c1c863134d848b41e.gif

490cbda2f2fb2a36c93fdb4a48220097.png

其实除了上面用python,你直接将图片链接复制到迅雷之类的下载工具里面也可以。

50f07e23ac1ad1a963c3537750a6d2f8.png

都看到这了,求点个赞不过分吧,最后祝大家牛逼!

c803ecd7e296e07d56b01c0f027f8259.png
好的,以下是关于使用 Python 的 web scraper 爬取二级网页的简单教程: 1. 导入必要的库 在 Python 中,我们需要使用一些第三方库来实现网页爬取。其中,最为常用的包括 requests 和 BeautifulSoup。前者用于获取网页源代码,后者用于解析 HTML 代码。 ```python import requests from bs4 import BeautifulSoup ``` 2. 获取二级网页 要获取二级网页的内容,我们首先需要获取主网页的链接,然后使用 requests 库获取其源代码,进而找到所有二级网页的链接。我们可以使用 BeautifulSoup 库解析 HTML 代码,并使用 find_all 方法找到所有 a 标签中的 href 属性,即所有链接。 ```python # 获取主网页的链接 url = "https://example.com" response = requests.get(url) soup = BeautifulSoup(response.content, "html.parser") # 获取所有二级网页的链接 links = [] for link in soup.find_all("a"): href = link.get("href") if href.startswith("https://example.com/second-level"): links.append(href) ``` 这里我们假设所有二级链接都以 "https://example.com/second-level" 开头。 3. 爬取二级网页的内容 现在我们已经得到了所有二级网页的链接,接下来就可以依次爬取它们的内容了。和获取主网页的源代码类似,我们可以使用 requests 库获取每个二级网页的源代码,然后使用 BeautifulSoup 库解析 HTML 代码,找到我们需要的内容。 ```python # 爬取所有二级网页的内容 for link in links: response = requests.get(link) soup = BeautifulSoup(response.content, "html.parser") # 这里可以根据需要找到需要的内容 ... ``` 这里需要注意的是,每个二级网页的 HTML 代码可能会有所不同。因此,我们需要根据实际情况找到我们需要的内容。 4. 完整代码 以下是一个完整的示例程序,用于爬取某个网站中以 "https://example.com/second-level" 开头的所有二级网页的标题和正文: ```python import requests from bs4 import BeautifulSoup # 获取主网页的链接 url = "https://example.com" response = requests.get(url) soup = BeautifulSoup(response.content, "html.parser") # 获取所有二级网页的链接 links = [] for link in soup.find_all("a"): href = link.get("href") if href.startswith("https://example.com/second-level"): links.append(href) # 爬取所有二级网页的内容 for link in links: response = requests.get(link) soup = BeautifulSoup(response.content, "html.parser") # 找到标题和正文 title = soup.find("h1").text content = soup.find("div", class_="content").text # 输出结果 print("Title:", title) print("Content:", content) ``` 这段代码可以根据实际需要进行修改。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值