通过网站访问日志我们可以看见很多蜘蛛爬行记录。搜索引擎都遵守互联网robots协议,是放置在网站根目录下robots.txt文本文件,在文件中可以设定搜索引擎蜘蛛爬行规则,以及设置搜索引擎蜘蛛Spider抓取内容规则。
通过robots.txt来进行限制,首先在网站跟目录下面建立一个robots.txt文件。下面先对robots.txt一些实例说明,然后根据网站情况进行规则设置。下面列出一些设置规则供大家参考。
I . 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
II. 允许所有的robot访问 (或者建一个空文件 “/robots.txt” )
User-agent: *
Allow:
III. 禁止某个搜索引擎的访问(比如禁止BaiDuSpider)
User-agent: BaiDuSpider
Disallow: /
IV. 允许某个搜索引擎的访问
User-agent: Baiduspider
allow:/
V.禁止目录搜索引擎访问,比如禁止admin ,install目录
User-agent: *
Disallow: /admin/
Disallow: /install/
VI.仅允许Baiduspider以及Googlebot访问
User-agent: Baiduspider
Allow: /
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
VII.禁止百度搜索引擎抓取你网站上的所有图片
User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
转载于:https://blog.51cto.com/nj63nscom/1554611