Python爬取CSDN,获取个人博客信息

本文介绍了作者学习CPDA知识之余,利用Python爬取CSDN个人博客信息的过程。通过查看网页源码,筛选并提取所需数据,如访问量、粉丝数等。同时,注意到了需要伪装成浏览器访问以避免被拒绝,以及如何确定最后一页。文中还分享了部分代码和结果截图。
摘要由CSDN通过智能技术生成

    最近自己空余时间在学习CPDA相关的知识,不过不打算考证,毕竟报名费用要8800(此处吐血三升)。不过相关资料倒是挺多的,感觉很有意思,也很适合自己,就拿来学学了。

    但是作为数据分析师,前提肯定是需要能得到大量数据。现在获取数据的最快方法就是在网络上爬取,所以自己就学习了下如何使用Python在网络上爬取数据。既然常常在CSDN上混,那就先从爬取CSDN的数据开始吧。

    代码和思路上参考了:https://blog.csdn.net/xingjiarong/article/details/50659381。特表示感谢!

    Python爬取信息的基本原理就是访问相关网址,将获取到的信息(主要是html源码)的内容进行筛选整理。所以爬取信息首先是要看所要访问网页的源码。比如下图是我的博客主页:


    邮件点击空白地方,选择查看源代码,就可以看到该页面的html源码。如下所示:



    接下来我就思考我要来爬取一些什么内容。首先就是我的总体信息,包括总的访问量,粉丝,排名等等。于是我们在源代码里找到相关的代码:

评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值