统计CSDN博客具体访问量

本文介绍了如何使用Python爬虫获取并统计CSDN博客的访问量。通过解析网页URL,找到阅读数和文章标题的HTML标签,利用正则表达式匹配所需信息,最终实现对博客访问量的统计。代码因网页结构变动需适时更新,强调了解决问题的思路和方法。
摘要由CSDN通过智能技术生成

CSDN博客访问量上万后显示变成了这样

我还差多少到2万呢? 拿个计算器挨个博客加? 何必呢,既然是网页那都是可以爬一爬的。首先找到文章列表的url(打开自己的CSDN博客点击我的博客,浏览器地址栏就是url了)
https://blog.csdn.net/u011031257/article/list/1
这个是我的博客列表地址,这里注意最后的1其实是页数代表该地址访问的是第几页(如果你有很多页的话)。好了,有了地址我们还需要要爬的元素。嗯,火狐浏览器F12打开浏览器控制台,右键点击页面元素查看(这里我们需要“阅读数”)

这里我们找到了阅读数的标签

<span class="read-num">阅读数:72</span>

同理也可找到文章标题的标签

<span class="article-type type-1">
            原        </span>
            反向传播示例代码全解析
            </a>

现在我们需要的是用来匹配这两项的正则表达式(注意文章标题项中有换行需要用到多行匹配)
对于第一项

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 10
    评论
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值