高校霸图：一举搞定国内高校图片爬虫！

最新推荐文章于 2024-10-06 18:19:52 发布

FLK_9090

最新推荐文章于 2024-10-06 18:19:52 发布

阅读量903

点赞数 9

分类专栏：爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/FLK_9090/article/details/137203042

版权

爬虫专栏收录该内容

18 篇文章 9 订阅

订阅专栏

1. 引言

在网络时代，信息爆炸，数据获取变得至关重要。本教程将介绍如何使用 Python 编写一个高效的爬虫程序，快速获取国内高校的图片数据，助你轻松搞定网络数据抓取。

2. 准备工作

首先，我们需要导入必要的库：requests 和自定义的 bag 模块。同时，通过编写 GetId 类来获取高校名称和对应的ID，为后续获取图片链接做好准备。

3. 获取图片链接

在这一步，我们将解析高校名称和ID，构造图片链接，并利用 session 对象发起请求，获取 JSON 数据。然后，解析 JSON 数据，提取出需要的图片链接。

4. 下载图片

接下来，我们创建保存路径，并确保路径存在。然后遍历高校图片链接，利用 session 对象下载图片，并将图片保存到本地，按照高校名称和序号命名，一步到位完成图片的下载任务。

5. 结语

通过本教程，你不仅学会了如何使用 Python 编写爬虫程序，更重要的是掌握了网络数据抓取的原理和方法。希望这篇教程能够帮助你更深入地了解数据获取的技术，为你在网络数据领域的探索之路提供有力支持。

6. 附录

在这里，我们提供了完整的代码示例，同时列出了可能遇到的常见问题及解决方法，帮助你更好地理解和运用所学知识。

#!/usr/bin/env python3
# coding:utf-8
import bag
from get_address_id import GetId

def get_url():
    name_id = GetId()
    baseurl = r'https://static-data.gaokao.cn/www/2.0/school/image/{}.json'
    links = [[info[0], baseurl.format(info[-1])] for info in name_id]
    urls = []
    for link in links:
        mid = []
        resp = session.get(link[-1])
        resp.encoding = 'utf8'
        resp.close()
        data = resp.json()
        for ls in data.get('data').get('schoolImg'):
            mid.append('https://static-data.gaokao.cn'+ls.get('url'))
        urls.append({link[0]: mid})
    return urls

def download_picture():
    urls = get_url()
    save_path = r'./高校图片'
    for ls in urls:
        for key, value in ls.items():
            for index, url in enumerate(value):
                resp = session.get(url)
                resp.close()
                with open(save_path+'//'+key+'_'+str(index+1)+'.jpg', mode='wb') as file:
                    file.write(resp.content)

if __name__ == '__main__':
    session = bag.session.create_session()
    download_picture()

感谢大家的阅读！如果你有任何问题或建议，欢迎在评论区留言。谢谢！