从零开始,学会Python爬虫不再难!!! -- (11)项目三:梳理博客中的无效链接丨蓄力计划

任务背景

在我们的博客中,充斥着大量的链接。随着时间的推移,其中一部分链接已经处于失效状态,这些失效链接给我们读者带来的体验是及其不好的。

但是我们也要互相的体谅,毕竟一个博主的文章都是几十上百篇的,有的甚至于上千篇,哪个链接失效了,我们也是真的不知道,或者知道了,也不知道具体在哪些地方有被引用到。
这就对我们的清理工作造成了巨大的困难。

鉴于这个问题,我特地研究了这么一套方法,爬取所有的失效链接,保存方式为:

受害博客、失效链接、失效链接代号。

当然,这个程序只用于嵌入在文章中的跳转链接(从我自身的角度出发,我的链接基本都是蓝字跳转),如果不是跳转链接,暂时没做。

好,开工!!!


使用线程池做大并发爬取

获取全部博客链接

首先,要拿到我全部的博客链接:

经过我的分析得出:

'''
纪录:1、如果一个链接为空,则爬出来的文本列表为空
2、文内链接之后跟的就是链接释义
3、自定义域名需要转化为默认域名才能使用
'''
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

看,未来

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值