linux 网络蜘蛛,如何写一个网络蜘蛛

最新推荐文章于 2021-05-13 19:26:35 发布

左燕杉

最新推荐文章于 2021-05-13 19:26:35 发布

阅读量101

点赞数

文章标签： linux 网络蜘蛛

这里是维基百科对网络爬虫的词条页面。网络爬虫以叫网络蜘蛛，网络机器人，这是一个程序，其会自动的通过网络抓取互联网上的网页，这种技术一般可能用来检查你的站点上所有的链接是否是都是有效的。当然，更为高级的技术是把网页中的相关数据保存下来，可以成为搜索引擎。

从技相来说，实现抓取网页可能并不是一件很困难的事情，困难的事情是对网页的分析和整理，那是一件需要有轻量智能，需要大量数学计算的程序才能做的事情。下面一个简单的流程：

在这里，我们只是说一下如何写一个网页抓取程序。

首先我们先看一下，如何使用命令行的方式来找开网页。

telnet somesite.com 80

GET /index.html HTTP/1.0

按回车两次

使用telnet就是告诉你其实这是一个socket的技术，并且使用HTTP的协议，如 GET方法来获得网页，当然，接下来的事你就需要解析HTML文法，甚至还需要解析Javascript，因为现在的网页使用Ajax的越来越多了，而很多网页内容都是通过Ajax技术加载的，因为，只是简单地解析HTML文件在未来会远远不够。当然，在这里，只是展示一个非常简单的抓取，简单到只能做为一个例子，下面这个示例的伪代码：

取网页

for each 链接 in 当前网页所有的链接

{

if(如果本链接是我们想要的 || 这个链接从未访问过)

{

处理对本链接

把本链接设置为已访问

}

require “rubygems”

require “mechanize”

class Crawler < WWW::Mechanize

attr_accessor :callback