python动态爬虫--json初步

最新推荐文章于 2024-06-18 09:16:15 发布

技术科

最新推荐文章于 2024-06-18 09:16:15 发布

阅读量174

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/jsship/article/details/114172692

版权

本文将介绍如何使用Python进行动态爬虫，重点在于抓取和解析JSON格式的数据。首先，我们将学习如何利用requests库发送HTTP请求获取网页内容。接着，我们将探讨如何处理动态加载的内容，如使用Selenium或Scrapy的 Splash 服务。最后，我们将展示如何解析JSON数据，包括使用json模块进行数据转换和提取关键信息。

摘要由CSDN通过智能技术生成

#!/usr/bin/env python
# coding=utf-8
import requests
import json

def single_page_commnet(link):
    header = {
        'User-Agent': 'Mozilla / 5.0(Windows NT 10.0; Win64; x64) '
                      'AppleWebKit / 537.36(KHTML, like Gecko) '
                      'Chrome / 88.0.4324.150 Safari / 537.36',
        'Host': 'movie.douban.com'  # 可省略
    }
    r = requests.get(link, header)
    # print(r.text)
    json_string = r.text
    json_string = json_string[json_string.find('{'):-2]  # 过滤出符合json格式的部分
    json_data = json.loads(json_string)  # 转化为json数据
    comment_list = json_data['results']['parents']  # 取出键值对存入字典
    for eachone in comment_list:  # 遍历输出json中指定的值
        message = '发布者:' + eachone['name'] + '内容:' + eachone['content'] + ','  # 输出指定键的内容
        print(message)

# link的值从浏览器n