Python爬取CSDN，获取个人博客信息

最新推荐文章于 2023-01-18 14:51:38 发布

bit_kaki

最新推荐文章于 2023-01-18 14:51:38 发布

阅读量1.1w

点赞数 11

分类专栏：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bit_kaki/article/details/80254646

版权

本文介绍了作者学习CPDA知识之余，利用Python爬取CSDN个人博客信息的过程。通过查看网页源码，筛选并提取所需数据，如访问量、粉丝数等。同时，注意到了需要伪装成浏览器访问以避免被拒绝，以及如何确定最后一页。文中还分享了部分代码和结果截图。

摘要由CSDN通过智能技术生成

最近自己空余时间在学习CPDA相关的知识，不过不打算考证，毕竟报名费用要8800（此处吐血三升）。不过相关资料倒是挺多的，感觉很有意思，也很适合自己，就拿来学学了。

但是作为数据分析师，前提肯定是需要能得到大量数据。现在获取数据的最快方法就是在网络上爬取，所以自己就学习了下如何使用Python在网络上爬取数据。既然常常在CSDN上混，那就先从爬取CSDN的数据开始吧。

代码和思路上参考了：https://blog.csdn.net/xingjiarong/article/details/50659381。特表示感谢！

Python爬取信息的基本原理就是访问相关网址，将获取到的信息（主要是html源码）的内容进行筛选整理。所以爬取信息首先是要看所要访问网页的源码。比如下图是我的博客主页：

邮件点击空白地方，选择查看源代码，就可以看到该页面的html源码。如下所示：

接下来我就思考我要来爬取一些什么内容。首先就是我的总体信息，包括总的访问量，粉丝，排名等等。于是我们在源代码里找到相关的代码：

最低0.47元/天解锁文章

关注

11
点赞
踩
24

收藏

觉得还不错? 一键收藏
10
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 10

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。