python_接口返回数据通过json提取和正则表达式提取

最新推荐文章于 2024-07-13 14:06:19 发布

檬柠wan

最新推荐文章于 2024-07-13 14:06:19 发布

阅读量3.2k

点赞数 3

分类专栏： # 爬虫学习文章标签： python 正则表达式 json

本文链接：https://blog.csdn.net/qq_45664055/article/details/118060668

版权

爬虫学习专栏收录该内容

4 篇文章 1 订阅

订阅专栏

这篇博客介绍了如何利用Python的requests和正则表达式模块，从搜狗图片搜索中抓取风景图片的URL。首先，定义所需参数并发起GET请求，然后通过解析返回的HTML，提取picUrl字段的值。提供了两种方法，一种是通过json解析，另一种是通过正则表达式匹配，分别打印出所有图片链接。

摘要由CSDN通过智能技术生成

一、准备工作

1、需要用到的网站

https://pic.sogou.com/

2、需要使用的模块

pip install requests

二、获取指定信息

首先，通过浏览器打开上面的地址，搜索“风景”，然后按F12打开调试窗口，并点击左上角“全部”按钮，获取接口
查看Preview返回的数据，picUrl的值，就是我们要获取的信息

在这里插入图片描述
1、通过json提取

import requests
import json


def img():
    data = {
            "mode": "1",
            "start": "0",
            "xml_len": "48",
            "query": "风景"
        }  # 需要传入的参数
    url = "https://pic.sogou.com/napi/pc/searchList?"  # 网址
    res = requests.get(url, data)  # 请求
    Obtain = json.loads(res.text)  # 把json转化为字典
    a = Obtain['data']['items']  # 查找到items的值
    for i in a:
        print(i['picUrl'])  # 循环打印picUrl的值


if __name__ == "__main__":
    img()

在这里插入图片描述
1、通过正则表达式提取

import requests
import re


def img():
    data = {
            "mode": "1",
            "start": "0",
            "xml_len": "48",
            "query": "风景"
        }  # 需要传入的参数
    url = "https://pic.sogou.com/napi/pc/searchList?"  # 网址
    res = requests.get(url, data)  # 请求网页
    pattern = re.compile(r'"(picUrl)":"(.*?)"')  # r的意思是不转义，即\表示原样的\
    match = re.findall(pattern, res.text)  # 获取所有的('picUrl', 'http://***')信息
    for i in match:
    	print(i)
        print(i[1])  # 获取地址


if __name__ == "__main__":
    img()