爬虫初探(一)爬取静态网页图片存入本地

最新推荐文章于 2024-07-31 14:11:45 发布

魔童a

最新推荐文章于 2024-07-31 14:11:45 发布

阅读量1.5k

点赞数 1

分类专栏：爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_43407213/article/details/111226743

版权

前言

这是本人刚开始学习爬虫时，用来练习的代码，如有什么问题和建议，欢迎留言交流！

一、使用requests库爬取静态网页

使用requests的get方法爬取静态网页中的照片，保存到本地问价夹（我这里是D:\BeautifulPicture），其中有使用BeautifulSoup帮助我们挑选出指定的标签。

二、具体步骤

1.获得html信息，进行分析

任意选择自己想爬取的页面（注意要是静态页面，动态也页面下一篇再具体写）
我这里爬取的页面url：https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_8553702887532570740%22%7D&n_type=0&p_from=1
打开页面，按Ctrl+U打开开发人员界面，我们需要图片信息进行分析提取

这样可以在右面看到完整的HTML文件，随便找一张照片右键-》查看

我们可以看到页面里的所有照片都在标签

下，每个照片的url在标签的src中，这里先记住集体看代码中的使用。

2.代码示例

代码如下（示例）：

from bs4 import BeautifulSoup
import os
import time
import requests

# 使用requests的get方法获取图片资源

class BeautifulPicture:
    def __init__(self):
        # 使用header用来模拟浏览器
        # 为了应对浏览器的反爬机制（不接受来自代码的访问），使用浏览器的headers来进行伪装
        self.headers = {
   
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKi

最低0.47元/天解锁文章

魔童a

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
爬虫初探(一)爬取静态网页图片存入本地

前言刚开始学习爬虫，如有什么问题和建议，欢迎留言交流一、使用requests库爬取静态网页使用requests的get方法爬取静态网页中的照片，保存到本地问价夹（我这里是D:\BeautifulPicture），其中有使用BeautifulSoup帮助我们挑选出指定的标签。二、具体步骤1.获得html信息，进行分析任意选择自己想爬取的页面（注意要是静态页面，动态也页面下一篇再具体写）我这里爬取的页面url：https://mbd.baidu.com/newspage/data/la
复制链接

扫一扫

专栏目录