项目背景:在之前的文章中,咱们练习了爬取虎扑的帖子【项目链接】,练习了使用selenium测试化工具获取论文信息【项目链接】,今天,就来实践免账号密码登录,获取推荐帖子。从本文中,你将能学到如何使用cookie免登录和具体分析过程;掌握了这个方法,其他项目也很容易上手了。
Python爬虫使用cookie免登录获取推荐
1. Cookie免登录-获取基础问题以及链接
老步骤,首先咱们先在浏览器中进入知乎,并登录,进入开发者模式。
知乎
咱们将这个cookie的值copy下来,作为免登录使用。
ok,接下来可以咱们先写一段免登录代码。
import requests
from bs4 import BeautifulSoup
import json
link="https://www.zhihu.com"
session = requests.session()
headers={
'cookie':'xxxxxxxxxxxxxxxxxx',
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
}
re = session.get(url=link,headers=headers)
首先headers里面有两个,一个是cookie 它的值就是咱们上面copy下来的,另外一个是user-agent,它的作用是让你的这个爬虫看起来更像一个正常的浏览器。
此时可以输出返回值看看,是正常进入的主页。
接下来进行返回数据的解析
从上面两个图咱们可以分析出来,题目所处在div.Card TopstoryItem TopstoryItem-isRecommend 下的a标签
标题链接所处在div.Card TopstoryItem TopstoryItem-isRecommend下的a标签里的href属性
所以下面代码就是负责获取这两个数据的
soup = BeautifulSoup(re.text,"lxml")
infoimage = soup.find("img",class_="Avatar AppHeader-profileAvatar")
title = soup.find("div",class_="Card TopstoryItem TopstoryItem-isRecommend").find