最新获取微博cookie,爬虫


前言

提示:以下是本篇文章正文内容,下面案例可供参考

一、使用步骤

1.引入库及代码

代码如下(示例):

import requests
import json

headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36",
}

data = {
    "cb" : "gen_callback",
    "fp" : '{"os":"1","browser":"Chrome95,0,4621,0","fonts":"undefined","screenInfo":"1920*1080*24","plugins":"Portable Document Format::internal-pdf-viewer::Chromium PDF Plugin|::mhjfbmdgcfjbbpaeojofohoefgiehjai::Chromium PDF Viewer"}',
}
url = "https://passport.weibo.com/visitor/genvisitor"

rsp = requests.post(url,headers=headers,data=data)
print(rsp.text)
body = rsp.text

body = body.replace("window.gen_callback && gen_callback(", "")
body = body.replace(");", "").replace("\\","")
jsons = json.loads(body)
print(jsons['data']['tid'])
t = jsons['data']['tid']

url2 = f"https://passport.weibo.com/visitor/visitor?a=incarnate&t={t}&w=2&c=095&gc=&cb=cross_domain&from=weibo&_rand=0.34268151967150073"
rsp = requests.get(url2,headers=headers)
print(rsp.text)
body2 = rsp.text
body2 = body2.replace("window.cross_domain && cross_domain(", "")
body2 = body2.replace(");", "").replace("\\","")
jsons2 = json.loads(body2)
print(jsons2['data']['sub'])
sub = jsons2['data']['sub']

headers2 = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36",
"cookie" : f"SUB={sub}"
}

url3 = "https://weibo.com/ajax/statuses/mymblog?uid=7065543812&page=1&feature=1"
rsp = requests.get(url3,headers=headers2)
print(rsp.json())

该处使用的requests网络请求的数据。
在这里插入图片描述

要使用Python编写爬虫获取微博评论,可以按照以下步骤进行操作: 1. 首先,你需要获取微博页面的URL地址。可以通过解析微博页面获取微博地址,或者直接从API接口获取微博地址。 2. 接下来,你可以使用Python的requests库发送HTTP请求,获取微博页面的内容。你可以设置请求头和Cookie来模拟登录状态。 3. 一旦获取微博页面的内容,你可以使用Python的正则表达式或者Beautiful Soup库来解析页面,提取出评论信息。 4. 如果想要获取主评论和子评论,你可以编写函数来分别解析和获取这两种评论。 5. 对于子评论,你可能需要使用递归或者循环来获取所有的子评论,因为子评论可能会有分页的情况。 6. 最后,你可以将获取到的评论信息保存到文件或者数据库中,或者进行其他你需要的操作。 这是一个简单的示例代码,用于获取微博评论: ```python import requests def get_weibo_comments(url): # 发送HTTP请求,获取微博页面内容 response = requests.get(url) # 解析页面,提取评论信息 comments = parse_comments(response.text) # 返回评论信息 return comments def parse_comments(html): # 使用正则表达式或者Beautiful Soup库来解析页面,提取评论信息 # ... return comments # 使用示例 weibo_url = "https://example.com/weibo" comments = get_weibo_comments(weibo_url) print(comments) ``` 请注意,根据微博的反爬虫策略,你可能需要设置合适的请求头和Cookie来模拟登录状态,以确保能够成功获取微博页面的内容。另外,爬取他人微博评论需要谨慎,遵守相关的法律法规和用户协议。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值