Python采集微博评论数据,让评论告诉我们最近热议话题

本文介绍了如何使用Python 3.10和PyCharm进行网页爬虫,重点讲解了通过requests模块发送请求,获取并解析微博评论数据,以及如何保存数据。还提示了在微博爬虫中可能需要登录以获取更多评论数据。
摘要由CSDN通过智能技术生成

嗨喽~大家好呀,这里是魔王呐 ❤ ~!

python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取

环境使用:

  • Python 3.10

  • Pycharm

模块使用:

  • import requests >>> pip install requests

  • import csv

模块安装:

win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源)

爬虫实现的基本流程:

一. 数据来源分析
1. 明确需求 确定采集什么网址上什么的数据
    - 网址: 微博 https://weibo.com/2286908003/NDLCR7za5
    - 数据: 评论信息
2. 抓包分析 (确定请求网址)
    - 打开开发者工具: F12 / 右键点击检查选择network
    - 刷新网页
    - 通过关键字搜索找到对应的数据位置
        关键字: 你需要获取的数据
        数据包地址: https://weibo.com/ajax/statuses/buildComments
二. 代码实现步骤
  1. 发送请求: 模拟浏览器对于url地址发送请求

  2. 获取数据: 获取服务器返回响应数据

  3. 解析数据: 提取我们需要的数据内容

  4. 保存数据: 保存数据即可

多页的数据采集:

对比请求链接变化规律 (请求参数)
max_id:''

第一页链接参数改成和后面链接参数一样 查看是否能够请求

1. 可以请求 OK
2. 如果不能请求: for循环时候判断即可

采集多页 -> 请求参数不规则变化

1. 下一页参数是否存在于上一页响应数据中 (直接搜参数哪来的)
2. 是不是加密参数

代码展示

导入模块

'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:926207505
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
# 导入数据请求模块 pip install requests
import requests
# 导入格式化输出模块
from pprint import pprint
# 导入csv模块
import csv

创建文件对象

f = open('data.csv', mode='w', encoding
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值