Python爬虫使用cookie登录获取推荐帖子

本文介绍了如何使用Python爬虫通过cookie实现免登录抓取知乎推荐帖子。首先,通过浏览器获取cookie,然后在爬虫代码中设置cookie和user-agent。解析返回数据时,定位到目标数据所在的div标签。接着,分析加载更多数据时的xhr请求,解析出session_token、page_number等关键参数。最后,提取出问题标题和回答链接,处理url,实现批量抓取。
摘要由CSDN通过智能技术生成

项目背景:在之前的文章中,咱们练习了爬取虎扑的帖子【项目链接】,练习了使用selenium测试化工具获取论文信息【项目链接】,今天,就来实践免账号密码登录,获取推荐帖子。从本文中,你将能学到如何使用cookie免登录和具体分析过程;掌握了这个方法,其他项目也很容易上手了。

Python爬虫使用cookie免登录获取推荐

1. Cookie免登录-获取基础问题以及链接
老步骤,首先咱们先在浏览器中进入知乎,并登录,进入开发者模式。
知乎

在这里插入图片描述
咱们将这个cookie的值copy下来,作为免登录使用。

ok,接下来可以咱们先写一段免登录代码。

import requests
from bs4 import BeautifulSoup
import json

link="https://www.zhihu.com"
session = requests.session()

headers={
    'cookie':'xxxxxxxxxxxxxxxxxx',
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
}
re  = session.get(url=link,headers=headers)

首先headers里面有两个,一个是cookie 它的值就是咱们上面copy下来的,另外一个是user-agent,它的作用是让你的这个爬虫看起来更像一个正常的浏览器。
此时可以输出返回值看看,是正常进入的主页。

接下来进行返回数据的解析
在这里插入图片描述
在这里插入图片描述
从上面两个图咱们可以分析出来,题目所处在div.Card TopstoryItem TopstoryItem-isRecommend 下的a标签

标题链接所处在div.Card TopstoryItem TopstoryItem-isRecommend下的a标签里的href属性
所以下面代码就是负责获取这两个数据的

soup = BeautifulSoup(re.text,"lxml")
infoimage = soup.find("img",class_="Avatar AppHeader-profileAvatar")
title = soup.find("div",class_="Card TopstoryItem TopstoryItem-isRecommend").find
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值