知乎爬虫之爬取专栏信息

最新推荐文章于 2024-04-13 10:28:42 发布

handsome_gay

最新推荐文章于 2024-04-13 10:28:42 发布

阅读量1k

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/handsome_gay/article/details/52816255

版权

本文介绍了如何使用爬虫抓取知乎专栏https://zhuanlan.zhihu.com/Entertainmentlaw的信息，包括专栏名称、作者和关注人数。通过分析请求URL和消息头，实现了对文章信息的抓取，揭示了知乎加载文章的limit和offset参数规律。

摘要由CSDN通过智能技术生成

接着昨天的模拟登陆，今天来爬取一下专栏信息
我们将对专栏https://zhuanlan.zhihu.com/Entertainmentlaw进行抓取
首先还是进行抓包分析，可以发现这里有我们想要的专栏的名称，作者，关注人数等信息

然后我们看一下消息头，看一下请求的URL和请求头
这里写图片描述
然后就可以编写代码了

# -*- coding:utf-8 -*-
__author__="weikairen"

import  requests
from bs4 import  BeautifulSoup
import  time

BASE_URL='https://www.zhihu.com/'
LOGIN_URL=BASE_URL+'login/phone_num'
CAPTCHA_URL=BASE_URL+'captcha.gif?r='+str(int(time.time())*1000)+'&type=login'

BLOGS_BASE_URL='https://zhuanlan.zhihu.com/Entertainmentlaw'
BLOGS_API_URL='https://zhuanlan.zhihu.com/api/columns/Entertainmentlaw'

session = requests.session()    #session创建为全局变量是为了能在不同的函数中使用一个相同的session
#在登录过后 session会保存服务器返回的cookie，爬取专栏信息的时候用这个session，服务器就会认为你已经登录，就不会拒绝你的请求了

def login():
    headers={
        'host':'www.zhihu.com',
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0',
        'referer':"https://www.zhihu.com/",
        'X - Requested - With': "XMLHttpRequest"
    }                                                      #构造请求头，