Python爬虫使用cookie登录获取推荐帖子

最新推荐文章于 2024-08-12 14:20:10 发布

梁先森-在技术的路上奔跑

最新推荐文章于 2024-08-12 14:20:10 发布

阅读量808

点赞数 1

分类专栏： Python 文章标签：爬虫 Python

本文链接：https://blog.csdn.net/lzx159951/article/details/103480524

版权

本文介绍了如何使用Python爬虫通过cookie实现免登录抓取知乎推荐帖子。首先，通过浏览器获取cookie，然后在爬虫代码中设置cookie和user-agent。解析返回数据时，定位到目标数据所在的div标签。接着，分析加载更多数据时的xhr请求，解析出session_token、page_number等关键参数。最后，提取出问题标题和回答链接，处理url，实现批量抓取。

摘要由CSDN通过智能技术生成

项目背景：在之前的文章中，咱们练习了爬取虎扑的帖子【项目链接】，练习了使用selenium测试化工具获取论文信息【项目链接】，今天，就来实践免账号密码登录，获取推荐帖子。从本文中，你将能学到如何使用cookie免登录和具体分析过程；掌握了这个方法，其他项目也很容易上手了。

Python爬虫使用cookie免登录获取推荐

1. Cookie免登录-获取基础问题以及链接
老步骤，首先咱们先在浏览器中进入知乎，并登录，进入开发者模式。
知乎

在这里插入图片描述
咱们将这个cookie的值copy下来，作为免登录使用。

ok，接下来可以咱们先写一段免登录代码。

import requests
from bs4 import BeautifulSoup
import json

link="https://www.zhihu.com"
session = requests.session()

headers={
    'cookie':'xxxxxxxxxxxxxxxxxx',
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
}
re  = session.get(url=link,headers=headers)

首先headers里面有两个，一个是cookie 它的值就是咱们上面copy下来的，另外一个是user-agent，它的作用是让你的这个爬虫看起来更像一个正常的浏览器。
此时可以输出返回值看看，是正常进入的主页。

接下来进行返回数据的解析
在这里插入图片描述

从上面两个图咱们可以分析出来，题目所处在div.Card TopstoryItem TopstoryItem-isRecommend 下的a标签

标题链接所处在div.Card TopstoryItem TopstoryItem-isRecommend下的a标签里的href属性
所以下面代码就是负责获取这两个数据的

soup = BeautifulSoup(re.text,"lxml")
infoimage = soup.find("img",class_="Avatar AppHeader-profileAvatar")
title = soup.find("div",class_="Card TopstoryItem TopstoryItem-isRecommend").find