博客园热门文章抓取

博客园热门文章抓取

一、背景

           热门文章对于读者来说是获取信息、学习知识的重要途径,对于博主来说是展示自己的见解和经验、提升影响力的机会。

           热门文章通常涵盖了当前热门话题、技术趋势、行业动态等内容,读者可以通过阅读这些文章获取最新的信息和知识。同时,博主通过发布热门文章可以分享自己的见解和经验。

          热门文章通常包含有价值的知识和经验,可以帮助读者学习新技能、解决问题,促进知识的传播和交流。一些优质的热门文章可能会给读者带来启发和激励,激发他们对某个领域的兴趣,或者帮助他们解决工作或学习中的困惑。

          热门文章往往会吸引大量读者的关注和评论,读者可以通过评论交流看法、提出问题,与其他读者和博主进行互动。博客园的热门文章会被更多的人看到,有助于提升博主的影响力和知名度,同时也可以推广博主的个人品牌或业务。

        我目前采用的是“粒元数字员工”,官网地址:粒元数字员工。通过这款RPA可以自动抓取,遍历热门文章列表获取信息,存储到Excel中。

二、步骤分解及效果预览

步骤操作如下:

(1).打开浏览器,输入https://www.cnblogs.com/aggsite/topviews网址。

(2).循环当前页面的文章列表单。

(3).获取到 文章标题,作者,时间,点赞量,评论数,阅读数等信息。

(4).保存到excel中。

三、RPA具体操作步骤:

1.打开rpa客户端,新建应用,选择移动端自动化应用

2.数据是要存到excel的,于是我们先准备好excel 存放的位置及表头。存放的就放电脑桌面文件名就为"博客园48小时热门文章.xlsx",在指令栏操作系统类目下都有相关指令,具体实现看下代码截图。

这代码就初始化好了数据的存放路径及Sheet(日期时间格式)表头的生成。如果运行这些代码桌面的就会有“博客园48小时热门文章.xlsx”文件且存在Sheet(日期时间格式)带有标题、发布时间 、作者、阅读数、评论数、点赞数的表头。

3.接下来就是打开让浏览器打开https://www.cnblogs.com/aggsite/topviews网址。这里需要让浏览器安装插件,然后获取匹配元素,这样才能保证RPA自动化运行。

4.循环这一页的所有标题

5.循环这一页的所有的作者(发布人)。

6.循环这一页的所有的发布时间(发布人)

7.循环这一页的所有的评论数(发布人)

8.循环这一页的所有的点赞数(发布人)

9.循环这一页的所有的阅读数(发布人)

10.将上面获取的数据写入到excel

把一页中的标题、发布时间 、作者、阅读数、评论数、点赞数写入到excel中,大大节省了数据时间存储时间,从而达到11秒内把三十几条数据抓取到,节省了不少的时间。

11.整体的代码截图。

12.此应用目前已上传到市场

四、使用心得

总体流程搭建其实很简单,就是把人工操作的步骤一步一步用应用脚本代替。需要考虑到的是人工能随时处理各种情况,脚本逻辑是固定的,处理效率上也更快更稳定。所以需要提前考虑到各种异常情况,比如没有搜索结果、网络异常等。找了几款RPA工具, 只有“粒元数字员工”的能力比较全面,这里是官网地址ww.cxplan.cn,感兴趣的朋友可以看看。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值