#!/usr/bin/env python
# coding=utf-8
import requests
import json
def single_page_commnet(link):
header = {
'User-Agent': 'Mozilla / 5.0(Windows NT 10.0; Win64; x64) '
'AppleWebKit / 537.36(KHTML, like Gecko) '
'Chrome / 88.0.4324.150 Safari / 537.36',
'Host': 'movie.douban.com' # 可省略
}
r = requests.get(link, header)
# print(r.text)
json_string = r.text
json_string = json_string[json_string.find('{'):-2] # 过滤出符合json格式的部分
json_data = json.loads(json_string) # 转化为json数据
comment_list = json_data['results']['parents'] # 取出键值对存入字典
for eachone in comment_list: # 遍历输出json中指定的值
message = '发布者:' + eachone['name'] + '内容:' + eachone['content'] + ',' # 输出指定键的内容
print(message)
# link的值从浏览器n
python动态爬虫--json初步
最新推荐文章于 2024-06-18 09:16:15 发布
本文将介绍如何使用Python进行动态爬虫,重点在于抓取和解析JSON格式的数据。首先,我们将学习如何利用requests库发送HTTP请求获取网页内容。接着,我们将探讨如何处理动态加载的内容,如使用Selenium或Scrapy的 Splash 服务。最后,我们将展示如何解析JSON数据,包括使用json模块进行数据转换和提取关键信息。
摘要由CSDN通过智能技术生成