python 爬虫实战：掘金文章爬取并保存在 mysql

最新推荐文章于 2024-03-14 15:30:33 发布

阿德罗斯

最新推荐文章于 2024-03-14 15:30:33 发布

阅读量1.6k

点赞数 3

分类专栏： python 文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37393071/article/details/108443328

版权

python 专栏收录该内容

14 篇文章 1 订阅

订阅专栏

文章目录

一、代码目的
二、爬取内容和思路
三、总结

一、代码目的

最近进行一个掘金爬虫，感觉还是挺有意思的，掘金的爬虫文章好像还是比较少的，记录一下。

二、爬取内容和思路

2.1 爬取内容：

主要包括两部分：
1. 对掘金的文章列表进行爬取，包括文章标题、用户名、文章简介以及文章链接；
2. 具体的文章内容，这部分只爬取了文章标题和内容。
在这里插入图片描述

2.2 思路

爬取内容的分析

首先分析图一，这部分通过 F12 将请求锁定在 https://apinew.juejin.im/search_api/v1/search，这是一个 post 请求，返回的 data 中有 20 个左右数据。并且每次下拉滚动条加载的新数据都是从这个链接得到。

在这部分代码里，主要是 payload 中有一个 cursor 变量，这个变量定位了下一次申请的 cursor，有点链表的感觉，添加了这部分的更新之后，每次 post 请求得到的内容就会和下拉滚动栏效果相同。

关于这个 cursor 的部分，我以前没有接触过这种更新方式，由于现在我找到的掘金爬虫文章比较老，没有看到提到这个部分的。

在这里插入图片描述

在这里插入图片描述
接着是具体文章的爬取，这部分比较简单了，直接对 https://apinew.juejin.im/content_api/v1/article/detail 进行爬取，这也是一个 post 请求，返回值中 content 就是文章的全部内容。

在这里插入图片描述

存储到 mysql

将爬取内容存储到mysql，这部分主要是参考了《如何将爬虫的数据添加到mysql数据库中》。这个对初学者还是很友好的，而且代码的结构也很好，我自己根据自己的情况，添加了部分代码。

由于我存储的内容比较长，我将content 设置尾 longtext

存入数据库的效果如下：

briefContent
content

三、总结

最终的代码结构如下：
在这里插入图片描述
具体代码链接：https://github.com/tonggongzhiqiu/jueJinSpider

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
6
评论
python 爬虫实战：掘金文章爬取并保存在 mysql

文章目录一、代码目的二、爬取内容和思路2.1 爬取内容：2.2 思路爬取内容的分析存储到 mysql一、代码目的最近进行一个掘金爬虫，感觉还是挺有意思的，掘金的爬虫文章好像还是比较少的，记录一下。二、爬取内容和思路2.1 爬取内容：主要包括两部分：1. 对掘金的文章列表进行爬取，包括文章标题、用户名、文章简介以及文章链接；2. 具体的文章内容，这部分只爬取了文章标题和内容。2.2 思路爬取内容的分析首先分析图一，这部分通过 F12 将请求锁定在 https://apinew.juej
复制链接

扫一扫

专栏目录

阿德罗斯 CSDN认证博客专家 CSDN认证企业博客

码龄7年

67: 原创

8万+: 周排名

8万+: 总排名

9万+: 访问

: 等级

1387: 积分

37: 粉丝

79: 获赞

22: 评论

225: 收藏

私信

关注

分类专栏

go 1篇
git 1篇
数据库 1篇
java 19篇
Leetcode 16篇
前端
Datawhale 3篇
Data
codewars java练习 11篇
python 14篇
scikit-learn 机器学习 1篇
生活 1篇

最新评论

python 爬虫实战：掘金文章爬取并保存在 mysql
挥洒寂寞: 怎么找不到接口乐
python 爬虫实战：掘金文章爬取并保存在 mysql
summe_blue: 掘金现在的API变了，具体某个文章的内容好像不是通过API接口返回的，而是服务端渲染，而且渲染后还做了混淆，不好爬啦。。。我用node.js的request-promise模块拉取数据，然后用cheerio分析DOM，找了半天找不到文章的内容，然后看API也没有，就很奇怪。。。
python分析qq聊天记录
夜不灭的灯: 可以收集表情图吗
剑指 offer 58-II 左旋转字符串
不吃西红柿丶: 我最近也在学这个，博文写的挺好，谢谢宝藏博主~
Leetcode 242 有效的字母异位词
LaoYuanPython: 有幸阅读博主的新作！谢谢博主提供的详细代码！你就是知名大厂未来的顶梁柱！

最新文章

目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。