网络流行（待续）

最新推荐文章于 2023-05-26 22:00:35 发布

weixin_34293911

最新推荐文章于 2023-05-26 22:00:35 发布

阅读量49

点赞数

原文链接：http://blog.51cto.com/negiup/517059

版权

1、搜索引擎基本技术

网络蜘蛛 网络蜘蛛（Spider）又被称作网络机器人（Robot），或者Crawler，它的主要目的是为获取互联网上的信息。网络蜘蛛利用主页中的超文本链接遍历Web，通过URL引用从一个HTML文档爬行到另一个HTML文档。http://dmoz.org是整个互联网抓取的入口。网络蜘蛛收集信息可有多种用途，如建立索引、HTML文件的验证、URL链接验证、获取更新信息、站点镜像等。网络蜘蛛建立的页面数据库包含根据页面内容生成的文摘，这是一个重要特色。

在抓取网页时，大部分网络机器人会遵循Robot.txt协议。

网站本身可以声明不想被搜索引擎收入的内容。可以有两种实现方式：第一种方式是在你的站点上增加一个纯文本文件http://www.yourdomain.com/robots.txt；另外一种方式是直接在HTML页面中使用robots的meta标签。

转载于:https://blog.51cto.com/negiup/517059

weixin_34293911

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网络流行（待续）

1、搜索引擎基本技术网络蜘蛛网络蜘蛛（Spider）又被称作网络机器人（Robot），或者Crawler，它的主要目的是为获取互联网上的信息。网络蜘蛛利用主页中的超文本链接遍历Web，通过URL引用从一个HTML文档爬行到另一个HTML文档。http://dmoz.org是整个互联网抓取的入口。网络蜘蛛收集信息可有多种用途，如建立索引、HTML文件的验证、URL链接验证...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。