去掉搜索引擎返回的死链接

 搜索引擎返回的页面中往往有很多的死链接,特别是某个新闻被和谐的时候,我遇到的最多的时候一个页面没有一个链接是有用的。搜索引擎,像百度,google,数据库实在很大,爬虫更新速跟不上。听说对一个网页更新的周期是一个月,造成了很多网页,特别是近期被删除网页被搜索引擎返回,而用户却无法访问。下面就来谈谈如何去技术上实现去掉链接。

  开发浏览器插件或者浏览器本身组成这样的程序组件,我觉得最适合做这个的,就是同时拥有搜索引擎和浏览器的公司,google,bing,baidu,soso。对用户一个请求,搜索引擎返回页面后,浏览器对页面中很多的超级链接个个进行测试,发起请求,只读取这个链接对应的网页的http头(这样速度是很快的),看这个网页是否可用,不可用就在客户端与可用的超级链接区别开来。这样用户就一下知道,现在返回页面中哪些已经不可访问。

  另一方面,浏览器将这个不可用的超级链接发送到后台通知爬虫,爬虫再优先访问这个报告的不可访问的超级链接(打破一定周期访问),如果真已经不可访问,就从后台数据库中删除这个记录。下一个用户再搜索的时就不会再返回已经不存在的网页链接。这里面还有些细节问题,比如像近期taobao频频维护变得不可访问,当然也有断网,断电的自然因素,如果按我前面说的,就不取了。这个可以这样,一方面,搜索引擎可以暂时屏蔽不可访问的数据,过段时间再去测试,如果长期不可访问,就数据库从删除,如果在一小段时间内不可访问,就屏蔽。我这个改进主要针对一个网站中的一部分网页,如果一个网站全站网页都不可访问,多半是网站的种种原因,可以站主机解析等方式来确定,这里不谈这个,而不是我们说的有些网页被删除。

   其实,这个应用完全可以结合爬虫写成个小程序,帮助个人站长测试自己的网站什么地方的链接已经不可用。

   

  附:希望和大家交流,各抒已见,不断的完善这些想法,相信大家都会用收获。有人批评过我说,我应该做深入的调查,仔细研究,做出一个就够了。可惜我没有那个精力,也不感兴趣,不是特别学院派的人,我对市场调果,商业计划之类的没有一点兴趣。   很久没有更新日志了,对不住零零星星来访问的朋友们,还是上一个我的创意吧。        

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值