爬取博客园首页数据进行数据分析

前言

之前折腾了一小段时间scrapy,觉得使用起来异常简单,然后打算练练手。目标选取了博客园,爬取了首页的前200页文章,但是数据放在那一直没去分析。趁着现在有闲心,来分析分析。

声明:所有爬取的数据皆为公开数据。为了避免对博客园造成压力,爬虫代码不公开。数据分析软件使用的是Tableau。如果你认为本文侵犯了你的权益,请联系作者删除。

注:数据来源是2017年05月17日至8月17的博客园首页文章。前文都是数据分析的图片展示,想要博主或文章的链接,请拉至最后。

谁是博客园最爱的用户

最爱的用户,在这里是按文章上首页的数量来判断的。

top_main

可见,小火柴的蓝色理想才是博客园最爱的用户。

让我们换个角度看看

top-main-relative

小火柴的蓝色理想貌似已经独孤求败了,远远的拉开了第二名。(作者注:非常推荐他的博客,后面会给出链接)

最值得推荐的文章是哪些

top-recommand

访问量最多的文章是哪些

top-visit

评论最多的文章是哪些

top-comm

哪天上首页的文章比较多

top-day

大家以后可以看好时机发表文章了。

各类链接

博客园最爱的用户

最多推荐

最多访问

最多评论

感谢你的阅读。文章首发于前端进阶指南微信公众号,想要获取更多知识,就快快关注吧。

前端进阶指南

我们也是有交流群的,660112451。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值