1、搜索引擎基本技术

网络蜘蛛 网络蜘蛛(Spider)又被称作网络机器人(Robot),或者Crawler,它的主要目的是为获取互联网上的信息。网络蜘蛛利用主页中的超文本链接遍历Web,通过URL引用从一个HTML文档爬行到另一个HTML文档。http://dmoz.org是整个互联网抓取的入口。网络蜘蛛收集信息可有多种用途,如建立索引、HTML文件的验证、URL链接验证、获取更新信息、站点镜像等。网络蜘蛛建立的页面数据库包含根据页面内容生成的文摘,这是一个重要特色。

    在抓取网页时,大部分网络机器人会遵循Robot.txt协议。

网站本身可以声明不想被搜索引擎收入的内容。可以有两种实现方式:第一种方式是在你的站点上增加一个纯文本文件http://www.yourdomain.com/robots.txt;另外一种方式是直接在HTML页面中使用robots的meta标签。