微博话题下的数据爬取

最新推荐文章于 2025-03-05 14:50:04 发布

枕上诗书--

最新推荐文章于 2025-03-05 14:50:04 发布

阅读量7.5k

点赞数 4

分类专栏： python 数据爬取

本文链接：https://blog.csdn.net/Amaris_1997/article/details/113816417

版权

本文介绍了如何爬取新浪微博中特定话题下的数据，以「#美国疫情#」为例，通过分析网页结构，编写爬虫代码，并针对遇到的长文本「展开全文」问题，提出了解决方案，包括检查isLongText字段并根据文章id获取完整内容。虽然方法简单，但需注意防止IP被封，同时市场上也有现成的数据爬取工具可供选择。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、前言

新浪微博中，一个话题下各个媒体或用户发表在平台发表的信息是舆情研究的一个很重要的数据来源，这里记录一下一个话题下数据的爬取方式，以“#美国疫情#”话题为例。

2、话题下数据爬取

首先参考这篇文章，分析话题下数据爬取的结构，然后仿照示例得到如下代码：

import requests
from urllib.parse import urlencode
from pyquery import PyQuery as pq
import time
import xlwt

#设置代理等（新浪微博的数据是用ajax异步下拉加载的，network->xhr）
host = 'm.weibo.cn'
base_url = 'https://%s/api/container/getIndex?' % host
user_agent = 'Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Mobile Safari/537.36'

#设置请求头
headers = {
    'Host': host,
    'Referer': 'https://m.weibo.cn/search?containerid=231522type%3D1%26q%3D%23%E7%BE%8E%E5%9B%BD%E7%96%AB%E6%83%85%23',
    'User-Agent': user_agent
}

# 按页数抓取数据
d