有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。
<!-- 默认是all -->
<meta name="Robots" content="all|none|index|noindex|follow|nofollow">
其中的属性说明如下:
设定为all:文件将被检索,且页面上的链接可以被查询;
设定为none:文件将不被检索,且页面上的链接不可以被查询;
设定为index:文件将被检索;
设定为follow:页面上的链接可以被查询;
设定为noindex:文件将不被检索,但页面上的链接可以被查询;
设定为nofollow:文件可以被检索,但是页面上的链接不可以被查询。
通知搜索引擎多少天访问一次
<META name="revisit-after" CONTENT="7 days" >
指定网页在缓存中的过期时间,一旦网页过期,必须到服务器上重新调阅。
注意:必须使用GMT的时间格式,或直接设为0(数字表示多少时间后过期)。
<meta http-equiv="Expires" content="0" />
禁止浏览器从本地机的缓存中调阅页面内容。
注意:网页不保存在缓存中,每次访问都刷新页面。这样设定,访问者将无法脱机浏览。
<meta http-equiv="Pragma" content="no-cache" />
地理位置标记
<meta name="location" content="province=湖北;city=武汉">
指定首选URL,声明一个权威网页做为复制网页的规范版本
<link rel="canonical" href="http://www.xxx.com/" >
禁止百度转码