python3爬取微博评论教程_用python 爬取微博评论,怎么打开微博评论下的查看更多|...

本文介绍了如何使用Python3爬取新浪微博大V的所有数据,包括评论。首先,通过公开API获取用户基本信息,利用since_id和max_id参数进行数据抓取。此外,还分享了抓取高清原图的方法,涉及BeautifulSoup库和urllib2模块。文章提到了模拟登陆和正则表达式的应用,以应对复杂的网页解析和登录过程。
摘要由CSDN通过智能技术生成

怎样用python爬新浪微博大V所有数据

先上结论,通过公开的api如爬到某大v的所有数据,需足以下两个条件:

1、在你的爬虫开始运行时,该大v的所有微博发布量没有超过回溯查询的上限,新浪是2000,twitter是3200。

2、爬虫程序必须不间断运行。

新浪微博的api基本完全照搬twitter,其中接口的参数特性与底层的NoSQL密不可分,建议先看点Nosql数据库的设计理念有助于更好的理解api设计。

一般来说,如果决定爬某个大v,第一步先试获取该用户的基本信息,中间会包含一条最新的status,记下其中的id号作为基准,命名为baseId。

接口中最重要的两个参数:

since_id:返回ID比since_id大的微博(即比since_id时间晚的微博),默认为0。

max_id:返回ID小于或等于max_id的微博,默认为0。

出于各种原因,获取statuses的接口,固定为按id降序排列(scan_index_forward=false),即最新的statuses返回在前。假设该微博第一天上线,就一个用户,发了一百条,id是1到100。而你在该用户发了第50条的时候开始运行的爬虫,即baseId=50。

如何使用python爬取到高清原图

# -*- coding:utf8 -*-

# 2013.12.36 19:41 wnlo-c209

# 抓取dbmei.com的图片

from bs4 import BeautifulSoup

import os, sys

爬取微博评论需要进行以下几个步骤: 1. 登录微博并进入需要爬取评论的页面,例如某一条微博的页面。 2. 打开浏览器的开发者工具(一般按 F12 键),并在 Network 标签页下刷新页面。 3. 点击页面上的“查看更多评论”按钮,此时 Network 标签页下会出现一个新的请求,这个请求的 URL 就是我们需要爬取评论的地址。 4. 右键点击请求,选择 Copy > Copy as cURL,得到请求的 cURL 命令,然后将其转换为 Python 代码。 5. 发送请求,解析返回的数据,获取评论内容。 下面是一个简单的 Python 爬取微博评论的示例代码: ```python import requests from bs4 import BeautifulSoup # 请求的地址,根据实际情况修改 url = 'https://weibo.com/1234567890/ABCDE' # 请求头部信息,根据实际情况修改 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36', 'Cookie': 'your cookie' } # 发送 GET 请求 response = requests.get(url, headers=headers) # 解析 HTML 页面,获取评论列表 soup = BeautifulSoup(response.text, 'html.parser') comment_list = soup.select('.list_li') # 输出评论内容 for comment in comment_list: print(comment.select('.WB_text')[0].text) ``` 需要注意的是,爬取微博评论需要登录,并且需要使用 Cookie 来维持登录状态。在代码中,将 Cookie 放在了请求头部信息中。另外,由于微博的页面结构经常变化,建议在实际使用时根据情况进行调整。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值