Python爬虫练习笔记——爬取单个网页里的所有图片（入门）

最新推荐文章于 2024-05-13 13:56:11 发布

高大宝呀

最新推荐文章于 2024-05-13 13:56:11 发布

阅读量1.9w

点赞数 55

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/sinat_34937826/article/details/105494749

版权

最近闲着，想学一下爬虫先从简单的练习开始吧~ 爬取单个网页里的所有图片，这个没有什么难点，因为不需要翻页哈哈哈哈我很喜欢一些文章中的配图，比如这篇，里面就会有很多电影中的经典截图第一步：分析网页1.首先我们要了解要爬取网站的页面，查看网页源代码。2.其次要想好代码的步骤和思路。#获取主页面源代码#获取章节超链接#获取小说内容#下载小说import requestsimpor...

摘要由CSDN通过智能技术生成

最近闲着，想学一下爬虫 (＾－＾)V ——[手动比耶]
先从简单的练习开始吧~ 爬取单个网页里的所有图片，这个没有什么难点，因为不需要翻页哈哈哈哈。

我很喜欢一些文章中的配图，比如这篇，里面就会有很多电影中的经典截图。
在这里插入图片描述

第一步：分析网页

首先需要了解要爬取网站的页面，查看网页源代码。然后根据网页源代码的结构，想好代码的步骤和思路。

在网页中查看页面的源代码（F12）

先来看一下页面的请求方式：
在开发者模式的Network里找到.html的请求，可以看到请求方式是GET请求，也没有带什么特殊的请求参数之类的~ 比较简单。
（如果没有看到.html的请求，刷新一下页面就出来了）
然后再看代码结构：
（不太熟悉html的小伙伴可以使用圈圈里的小箭头，点一下自己想要看的元素，然后右侧就会自动跳转到该元素对应的代码区域的~四不四很简单）

结合“上下文”简单分析一下就会发现：（有种做阅读理解的感觉hhhhh）
① 这个网页里所有的图片都是放在 <img> 标签里的 src 后面，src后面这个链接就是图片的地址
（可以复制下来在浏览器打开确认一下）
② 图片上方的描述语是放在class="pictext"的 p 标签里的
（曾打算过用这个描述语句作为爬下来的图片的名称的）

这样一来就很简单了
只需要先拿到网页的 HTML 代码，然后把页面里面所有<img> 标签里的 src 后面超链接的内容取出来就行了！

第二步：开始编程

1. 定义库

首先需要用 requests 库来发出一个网络请求：

import requests

然后需要用 BeautifulSoup 来解析和提取 HTML 数据

from bs4 import BeautifulSoup

这里也可以直接import bs4，但代码中每次用的时候都要写上包名bs4，如：bs4.BeautifulSoup 啥啥啥

而from bs4 import BeautifulSoup 是直接将BeautifulSoup 类导入到当前命名空间直接使用，不需要再带包名。因此建议用from bs4 import BeautifulSoup

最后需要还需要用 urllib.request 来将网络对象复制到本地文件

import urllib.request

感觉 urllib.request 和前面导入的 requests有点像呀~ 查了一下资料发现是这样：

最低0.47元/天解锁文章

高大宝呀

关注

55
点赞
踩
196

收藏

觉得还不错? 一键收藏
8
评论
Python爬虫练习笔记——爬取单个网页里的所有图片（入门）

最近闲着，想学一下爬虫先从简单的练习开始吧~ 爬取单个网页里的所有图片，这个没有什么难点，因为不需要翻页哈哈哈哈我很喜欢一些文章中的配图，比如这篇，里面就会有很多电影中的经典截图第一步：分析网页1.首先我们要了解要爬取网站的页面，查看网页源代码。2.其次要想好代码的步骤和思路。#获取主页面源代码#获取章节超链接#获取小说内容#下载小说import requestsimpor...
复制链接

扫一扫

专栏目录