python-爬虫-知乎文章抓取记录

最新推荐文章于 2024-07-10 15:06:18 发布

食我大招啦

最新推荐文章于 2024-07-10 15:06:18 发布

阅读量1.9k

点赞数 1

分类专栏：爬虫文章标签：爬虫知乎 python

本文链接：https://blog.csdn.net/qq_43692386/article/details/100778786

版权

本文介绍了如何使用Python爬虫抓取知乎上的文章。通过分析网页动态加载的接口，找到数据变化的关键参数offset，实现了翻页抓取文章信息。整个过程简单明了，适合初学者实践。

摘要由CSDN通过智能技术生成

这次需求是抓取知乎的文章

**
1.我们打开知乎，搜索来到你要抓的用户页面（就像我下面截图所示）
在这里插入图片描述
2.来到文章界面，作为习惯，拿到一个网站我会按下F12查看网络请求，哦，看到动态加载出来的接口。
翻找一下，看到我们需要的数据都列在了接口中。嘴角上扬，这种网站抓起来就是两个字：舒服。

3.我们往下来，康康刷新出来新加载出来的接口有什么区别
在这里插入图片描述

发现换的就只有offset嘛，每页就往上加了20，看到这这就基本完事了

import time
import pymysql
import requests
import re


class ZhiHu:
    def __init__(self):
        self.db = pymysql.connect(host='127.0.0.1', port=3