我的爬虫（一）之抓取优美图库图片

最新推荐文章于 2024-08-31 11:34:07 发布

LJT_SIX

最新推荐文章于 2024-08-31 11:34:07 发布

阅读量815

点赞数 2

文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/LJT_SIX/article/details/125482832

版权

我的爬虫实战（一）之抓取优美图库
羞羞图片…

文章目录

- 我的爬虫实战（一）之抓取优美图库羞羞图片...
前言
- `提示：这里可以添加本文要记录的大概内容：` emmm，这是一篇小白学了一段时间后开始用博客记录学习过程的文章。记录从现在开始。对于爬虫来说，可能大部分人都不陌生，爬虫爬虫，爬的好吃国家饭嘛，啊呸，不能这样想。大家平常点开网页看见一些好看的图片，是不是有下载的冲动，可是如果一个一个点击图片下载，费时又费力，那么这个时候，就轮到我们今天的主角登场了——自动爬取下载网络图片。
一、爬虫是什么？
二、使用步骤
总结

前言

`提示：这里可以添加本文要记录的大概内容：`
emmm，这是一篇小白学了一段时间后开始用博客记录学习过程的文章。记录从现在开始。
对于爬虫来说，可能大部分人都不陌生，爬虫爬虫，爬的好吃国家饭嘛，啊呸，不能这样想。大家平常点开网页看见一些好看的图片，是不是有下载的冲动，可是如果一个一个点击图片下载，费时又费力，那么这个时候，就轮到我们今天的主角登场了——自动爬取下载网络图片。

提示：以下是本篇文章正文内容，下面案例可供参考

一、爬虫是什么？

网络爬虫就是一种按照一定的规则、自动的抓取万维网信息的脚本或者程序，简单来说：爬虫是用事先写好的程序去抓取网络上的数据，这样的程序叫爬虫

二、使用步骤

1.引入库

代码如下（示例）：

import requests
from bs4 import BeautifulSoup
import time

这里的time库是为了防止我们的请求被服务端终端而导入的，作用呢就是让程序慢点爬，emmm是这样的吧。如果不是请大神指正。

2.选择网站

我们这里选择的优美图库，咳咳绝对不是你们想的眼那样，我是单纯记录学习过程，吧。
之后呢，要想爬取数据，首先查看网页源代码如果源代码里有我们想要获取的内容，我们就可以直接进行爬取，如果没有的话，就得使用fiddler等抓包工具了，对于这个抓包工具，我会在后面的系列中进行更新啦。
然后我们点击网页空白处点击查看源代码：
在这里插入图片描述
在这里检查过之后，确认网页源代码里有我们想要的内容，那么ok，我们进行爬虫脚本编写。

2.读入数据

代码如下（示例）：
获取网页内容，并运用Beautiful对文本进行解析。

url = 'https://www.umei.cc/meinvtupian/xingganmeinv/'
resp = requests.get(url=url)
resp.encoding = 'utf-8'
#解析数据
main_page = BeautifulSoup(resp.text, 'html.parser')
alist = main_page.find('ul', class_="pic-list after").find_all('img')

获取下载链接，保存图片到文件。

#获取下载链接
for i in alist:
    time.sleep(1)
    herf = (i.get('data-src'))
    # print(herf)
    #请求图片，保存文件
    img_resp = requests.get(url=herf)
    img_name = herf.split("/")[-1]
    print(img_name)
    with open('img/' + img_name, mode='wb') as fp:
        fp.write(img_resp.content)

print('over')

有人可能会对一下代码产生疑问，我来解答一下：

    img_resp = requests.get(url=herf)
    img_name = herf.split("/")[-1]
    print(img_name)
    with open('img/' + img_name, mode='wb') as fp:
        fp.write(img_resp.content)

这里呢，我们对图片的url发起请求获得的内容呢就会是一堆字节，这些字节就组成了图片，我们想要保存的话就非常简单，我们只需要保存图片的字节，就相当于保存了图片。

全代码

import requests
from bs4 import BeautifulSoup
import time

url = 'https://www.umei.cc/meinvtupian/xingganmeinv/'
resp = requests.get(url=url)
resp.encoding = 'utf-8'
#解析数据
main_page = BeautifulSoup(resp.text, 'html.parser')
alist = main_page.find('ul', class_="pic-list after").find_all('img')
#获取下载链接
for i in alist:
    time.sleep(1)
    herf = (i.get('data-src'))
    # print(herf)
    #请求图片，保存文件
    img_resp = requests.get(url=herf)
    img_name = herf.split("/")[-1]
    print(img_name)
    with open('img/' + img_name, mode='wb') as fp:
        fp.write(img_resp.content)

print('over')

4.效果展示

这里我们是新建的一个img文件夹用于存放下载来的图片，现在我们点开文件夹，就可以看到图片啦。
在这里插入图片描述

总结

提示：这里对文章进行总结：

例如：以上就是今天要讲的内容，本文仅仅简单的介绍了爬取网站图片的方法，大伙子学会了没有，学会了就等晚上就，诶不对，学会了我们就可以学以致用啦~