如何使用Python对嵌套结构的JSON进行遍历获取链接并下载文件

最新推荐文章于 2024-05-19 16:47:05 发布

亿牛云爬虫专家

最新推荐文章于 2024-05-19 16:47:05 发布

阅读量321

点赞数 1

分类专栏：代理IP python 爬虫技术文章标签： python json 开发语言网络爬虫代理模式

本文链接：https://blog.csdn.net/ip16yun/article/details/129181552

版权

爬虫技术同时被 3 个专栏收录

134 篇文章 0 订阅

订阅专栏

python

91 篇文章 0 订阅

订阅专栏

代理IP

86 篇文章 0 订阅

订阅专栏

在这里插入图片描述

JSON（JavaScript Object Notation）是一种基于JavaScript语言的轻量级数据交换格式，它用键值对的方式来表示各种数据类型，包括字符串、数字、布尔值、空值、数组和对象。数组是有序的数据集合，用[]包围，元素用逗号分隔；对象是无序的数据集合，用{}包围，属性用逗号分隔，属性名和属性值用冒号分隔。
JSON可以形成嵌套结构，即数组或对象中包含其他数组或对象。例如：

{
"name": "Alice",
"age": 20,
"hobbies": ["reading", "writing", "singing"],
"friends": [
{
"name": "Bob",
"age": 21,
"hobbies": ["playing", "coding", "dancing"]
},
{
"name": "Charlie",
"age": 19,
"hobbies": ["drawing", "cooking", "watching"]
}
]
}

这个例子中，一个对象表示了Alice和她两个朋友的基本信息。这个对象有四个属性，其中hobbies是一个数组，friends也是一个数组，而friends数组中的每个元素又都是一个对象。
遍历JSON就是按顺序访问其中的每个元素或属性，并进行处理。遍历JSON有很多好处：

提取所需信息：我们可以从嵌套结构的JSON中获取特定信息，比如Alice喜欢什么书或Bob会不会跳舞等。
修改或更新信息：我们可以修改或更新嵌套结构的JSON中的特定信息，比如Alice年龄加1或Charlie多了一个爱好等。
格式化或转换信息：我们可以将嵌套结构的JSON以不同形式展示给用户，比如表格、图表、列表等，
或者转换成其他格式，比如XML、CSV等。
分析或处理信息：我们可以对嵌套结构的JSON中的特定信息进行分析或处理，比如计算Alice和Bob有多少共同爱好，或者按年龄排序所有人等。

下面通过一段代码演示如何遍历JSON，提取所有的网站链接，并对zip文件使用爬虫代理IP下载：

# 导入需要的模块
import json
import requests

# 定义爬虫代理加强版的用户名、密码、域名和端口
proxy = "http://16ip:pass@www.16yun.cn:8080"

# 定义嵌套结构的json数据，可以用文件读取等方式替换
data = {
    "articles": {
        "article_1": {
            "image": "https://www.16yun.cn/1.jpg",
            "reviews": [
                {
                    "attach": "https://www.16yun.cn/test/22.png"
                },
                {
                    "attaches": [
                        "https://exa2.com/test/23.png",
                        "https://exm23.com/file.zip"
                    ],
                    "report_to": "https://data.zzz/count_re"
                }
            ]
        },
        "article_2": {
            "image": "https://example.com/3.jpg",
            "related_posts": [
                {
                    "attach": [
                        "https://exmdy.com/79488.png",
                        "https://exmdy.com/file/da/eio.zip"
                    ],
                    report_to: \"https://dafe/do\"
                }
            ]
        }
    }
}

# 定义一个函数，用于遍历json数据，提取所有的链接，并将链接中.zip后缀的文件使用代理IP进行下载
def extract_and_download_links(data):
    # 如果数据是字典类型，遍历其键值对
    if isinstance(data, dict):
        for key, value in data.items():
            # 如果值是字符串类型，并且以http或https开头，说明是一个链接
            if isinstance(value, str) and value.startswith(("http", \"https\")):
                # 打印出链接
                print(value)
                # 如果链接以.zip结尾，说明是一个压缩文件
                if value.endswith(".zip"):
                    # 使用requests模块和爬虫代理加强版发送请求，获取响应内容
                    response = requests.get(value, proxies={"http": proxy})
                    # 从链接中提取文件名
                    filename = value.split("/")[-1]
                    # 以二进制模式打开一个新文件，写入响应内容
                    with open(filename, \"wb\") as f:
                        f.write(response.content)
            # 否则，递归调用函数处理值
            else:
                extract_and_download_links(value)
    # 如果数据是列表类型，遍历其元素
    elif isinstance(data, list):
        for element in data:
            # 递归调用函数处理元素
            extract_and_download_links(element)

# 调用函数处理json数据            
extract_and_download_links(data)

总之，对嵌套结构的JSON进行遍历可以帮助我们更好地理解和利用其中包含的数据，并且提供了更多可能性和灵活性来满足不同场景下的需求。

亿牛云爬虫专家

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
如何使用Python对嵌套结构的JSON进行遍历获取链接并下载文件

JSON（JavaScript Object Notation）是一种基于JavaScript语言的轻量级数据交换格式，它用键值对的方式来表示各种数据类型，包括字符串、数字、布尔值、空值、数组和对象。可以使用python对JSON进行遍历，提取链接并进行下载
复制链接

扫一扫