python 404_用Python抓取全站中的404错误

链接是SEO的一个重要因素。为了在搜索引擎中获取更好的排名,一定要定期检查下网站中的链接是否依然有效。特别是由于一些巨大的改动可能会导致坏链接的出现。要检测这些站内的链接问题,可以通过一些在线的工具。比如Google Analytics,Bing Webmaster Tools,brokenlinkcheck.com等。尽管有现成的工具,我们也可以自己来编写一个。使用Python会非常容易。

翻译:yushulx

如何检查网站404错误

为了让网站更好的被搜索引擎抓取,一般的网站都会有一个sitemap.xml。所以基本步骤是:

读取sitemap.xml,获取所有的站内链接。

从每个链接中再读取所有的链接,可能包含inbound link或者outbound link。

检查所有链接的状态。

软件安装

使用BeautifulSoup库来分析网页元素会非常方便:

pip install beautifulsoup4

如何使用Python抓取网页

因为程序运行的时间可能会很长,要随时打断的话,需要注入键盘事件:

使用BeautifulSoup来分析sitemap.xml:

分析HTML元素获取所有链接:

检查link的response返回值:

源码

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值