关于爬虫及蜘蛛的几点见解

最新推荐文章于 2024-06-24 14:19:29 发布

sozhanma

最新推荐文章于 2024-06-24 14:19:29 发布

阅读量2k

点赞数

2011-12-01 10:46 951人阅读

 
 搜索引擎 
 脚本 
 浏览器 
 任务 
 工具 

做数据驱动型的网站，数据、信息就是你的命根子，一旦你的数据被盗取或被非法使用，对你的损失是不可估量的。人家可以飞快的山寨一个网站出来让你痛不欲生。

首先简单解释一下爬虫、蜘蛛：

就是由某些人写出一个小程序，不断模拟浏览器请求你的页面，然后抓取相应的数据。蜘蛛则是搜索引擎抓取你的网页数据的工具。原理与爬虫类似。

统计代码一般不记录爬虫、蜘蛛等：

搜索引擎的蜘蛛基本不解析执行页面上的script脚本代码，因为脚本太复杂，解析起来效率太低。蜘蛛每天要抓上百万的页面，效率很重要。
另外蜘蛛抓取是按域名来的，换句话说蜘蛛的抓取是有选择的，会针对不同域名，其抓取频率也不同，统计代码用的不是贵站的域名，所以当蜘蛛抓取统计代码的时候是在cnzz.com域名下，所以是cnzz.com的抓取频率，并不代表贵站被蜘蛛抓取的频率。有的统计宣称在贵站网页上放他们域名的链接等就可以统计蜘蛛抓取，基本是忽悠您给他加友链，为他提高pr呢。
蜘蛛会通过网页的链接发现别的网站，但是这仅是发现（新网站入库），在抓取的时候，还是会保持内聚性，深入抓取内容。至于发现的新网站，会派发给后续蜘蛛任务。
第三，蜘蛛抓取针对不同资源的抓取频率也是不同的，同一个页面上的正文和图片等，蜘蛛抓取频率是不一样的。搜索引擎公司都为不同类型的资源配备不同类型的专有蜘蛛，绝对不是胡子眉毛一把抓的。
统计代码能记录的爬虫、蜘蛛

有一些人会使用模拟浏览器的方法来请求，包括你的所有脚本。完全模拟用户操作，这样的爬虫力量很强，几乎无法发现。注意防守了。例如某些插件就有这个效果。

解决爬虫的方法还是在自己的程序上做文章比较现实，做好良好的统计策略，和防爬策略才是关键。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。