robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
obots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写
语法:最简单的 robots.txt 文件使用两条规则:
· User-Agent: 适用下列规则的漫游器 · Disallow: 要拦截的网页
比如
经过验证
大多数的电商网站都是有这样的东西的,但是像百度等搜索引擎都是没有,虽然他们也需要登录
http://www.taobao.com/robots.txt
百度的登录,这样看来,他们应该不是一个应用