python动态爬虫--json初步

本文将介绍如何使用Python进行动态爬虫,重点在于抓取和解析JSON格式的数据。首先,我们将学习如何利用requests库发送HTTP请求获取网页内容。接着,我们将探讨如何处理动态加载的内容,如使用Selenium或Scrapy的 Splash 服务。最后,我们将展示如何解析JSON数据,包括使用json模块进行数据转换和提取关键信息。
摘要由CSDN通过智能技术生成
#!/usr/bin/env python
# coding=utf-8
import requests
import json

def single_page_commnet(link):
    header = {
        'User-Agent': 'Mozilla / 5.0(Windows NT 10.0; Win64; x64) '
                      'AppleWebKit / 537.36(KHTML, like Gecko) '
                      'Chrome / 88.0.4324.150 Safari / 537.36',
        'Host': 'movie.douban.com'  # 可省略
    }
    r = requests.get(link, header)
    # print(r.text)
    json_string = r.text
    json_string = json_string[json_string.find('{'):-2]  # 过滤出符合json格式的部分
    json_data = json.loads(json_string)  # 转化为json数据
    comment_list = json_data['results']['parents']  # 取出键值对存入字典
    for eachone in comment_list:  # 遍历输出json中指定的值
        message = '发布者:' + eachone['name'] + '内容:' + eachone['content'] + ','  # 输出指定键的内容
        print(message)

# link的值从浏览器n
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值