【第22期】观点:IT 行业加班,到底有没有价值?

robots规范写法与用途

转载 2016年08月31日 14:12:34

什么是robots协议?

robots协议就是搜索引擎的爬虫协议,它的出现就是为了告诉搜索引擎该网站中哪些页面不可以爬取而生成的协议.robots协议是可以用任何文本编辑器编辑的协议.

协议的写法:

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
举报

相关文章推荐

网站项目管理规范指南

1. 概述  关于本指南的目的,大纲描述。1.1 什么是网站项目管理规范指南  《网站项目管理规范指南》读做“网站-项目管理-规范-指南”,顾名思义就是针对网站项目管理,提供规范管理的建议和指导。之所...

轻松几步获得上万点击率(三)

首先说明一下,原来的《SEO优化完全手册》改名为《轻松几步获得上万点击率》

程序员升职加薪指南!还缺一个“证”!

CSDN出品,立即查看!

轻松几步获得上万点击率(三)

首先说明一下,原来的《SEO优化完全手册》改名为《轻松几步获得上万点击率》   这一节我们来一起讨论一下关于元标记和网页描述的优化。所谓的元标记,其实就是网页代码头部和之间的META内容。下面我们首先...

轻松几步获得上万点击率(三)

首先说明一下,原来的《SEO优化完全手册》改名为《

轻松几步获得上万点击率(三)

转自:http://blog.csdn.net/diehuan2008 <
  • isiqi
  • isiqi
  • 2009-03-07 09:05
  • 408
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)