站内robots文件优化
User-agent: 蜘蛛名称 *
Disallow: 禁止抓取的文件路径
Allow: 允许抓取的路径名称
robots文件写法
Disallow: /admin 禁止抓取admin这个目录文件
Disallow: /a/*.htm
代表的是禁止抓取a目录里面所有以.htm结尾的文件
www.xxx.com/a/1.html
www.xxx.com/a/2.htm
Disallow: /*?* 禁止抓取所有动态链接
Disallow: /Show.asp?id=868
Disallow: /.jpg$
$是一个通配符 禁止抓取所有jpg格式的图片
Disallow: /*.html
<img src="http://www.xxx.com/1.jpg">
关于具体站点的robots文件写法
不同的网站文件写法不一样,具体网站具体对待。
都一步、打开根目录找到robots.txt文件点击编辑
对于网站里面存在的死链接也可以使用robots文件屏蔽
www.xxx.com/a/silianjie.html
Disallow: / a/silianjie.html
Allow: /a/4.html
www.xxx.com/a/1.html
www.xxx.com/a/2.html
www.xxx.com/a/3.html
www.xxx.com/a/*.html
robots文件里面建议大家添加一条允许抓取的记录来强调重点页面
强调的是站点地图页面,这个页面上面包含我们站内的所有页面
Allow: /sitemap.html
Sitemap: /sitemap.html
强调允许站点地图被抓取。
user-agent: *
Disallow: /
相当于网站禁封了
网站在改版的过程中可以使用这个记录先屏蔽网站,等改版完成好了测试没问题了咱们再删掉这个记录。
meta robots标签
这个标签写法比较麻烦需要写在具体页面的头部
使用三种方式来屏蔽蜘蛛跟踪抓取某个链接
1、使用robots.txt来写
2、使用meta robots标签设置
3、直接使用链接的nofollow属性
<img src="http://www.xxx.com/404.jpg" rel="nofollow">
Disallow: /404.jpg