让搜索引擎按你的意图来进行

最新推荐文章于 2024-09-27 22:26:17 发布

uSwitch

最新推荐文章于 2024-09-27 22:26:17 发布

阅读量344

点赞数 1

分类专栏：菜鸟学搜索引擎文章标签：搜索引擎百度 archive 电子商务 url 服务器

本文链接：https://blog.csdn.net/chinafccs/article/details/6204146

版权

菜鸟学搜索引擎专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在很多的网站中，站长们都忽略了使用robots.txt 文件。因为很多站长认为自己的网站没什么秘密，而且自己也不太会使用robots.txt 的语法，因此一旦写错了就会带来更多的麻烦，还不如不写。

其实这么想是不对的，如果蜘蛛或小机器人在访问你的网站的一个URL 时，这个URL 不存在，那么就会记录一条404 信息（网页不存在），而robots.txt 就是蜘蛛第一个访问的文件，如果404 的信息过多，那么搜索引擎就会认为该网站的价值较低，从而降低该网站的权重(weight), 那么该网站的排名也自然会排在后面。所以即使你什么也不会，放个空的robots.txt 也好。

----------------------- 选自《SEO 魔法书》

一般情况下，人们总喜欢自己的网站被搜索引擎收入的越多越好，这就表示自己的网站被搜索到得概率越大。但是，有的网站你还是不希望被搜索收入的，比如后台管理页面，比如电子商务里的购物车页面，这些页面都是忌讳被直接搜到访问的。那如何阻止搜索引擎的收入呢？这正是今天要讲的。

1) Robots.txt

什么是robots.txt ？

robots.txt 是搜索引擎索引你网站的时候要查看的第一个文件。Robots.txt 文件告诉蜘蛛程序在服务器上什么文件是可以被查看的, 而什么文件是不允许被收入的。

所以，第一个方法就是编写robots.txt 。那如何编写？太简单了，就三个指令如下：

User-agent: 对谁（一般指机器人或者说是蜘蛛）

Disallow: 不被允许的文件或路径

Allow: 允许的文件或路径

Robots.txt 里的注释和java 里的属性文件一样用# 注释

列1 ：

允许所有搜索引擎访问网站的所有部分

-- 可以建立一个空的robots.tx ，

或者

# 这里* 代表所有蜘蛛爬虫

User-agent:*

# 这里空表示没有不允许的内容，即允许全部

Disallow:

或者

User-agent:*

# 这里/ 表示根目录下所有文件

Allow:/

列2 ：禁止所有搜索引擎收入网站的所有部分

User-agent:*

Disallow:/

列3 ：禁止所有搜索引擎访问网站的几个部分（下例中的01 、02 、03 目录）

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

列4 ：禁止百度索引你的网站：

User-agent:Baiduspider

Disallow:/

列5 ：禁止除百度以外的搜索引擎索引你的网站

#( 一个robots.txt 中可以含有多个User-agent,Disallow 和Allow 针对的是在他上面并离他最近的那个User-agent)

User-agent:Baiduspider

Disallow:

User-agent:*

Disallow:/

通配符"*" 和"$" 的使用：

　"$" 匹配行结束符。

　"*" 匹配0 或多个任意字符。

使用“$ ”允许访问某个目录下某个后缀的文件

User-agent:*

Allow:.asp$

Disallow:/

禁止索引网站的所有动态页面

（这里限制由？的域名 eg:index.jsp?id=10086 ）

User-agent:*

Disallow:/?

禁止百度抓取你网上的图片

User-agent:Baiduspider

Disallow:.jpg$

Disallow:.jpeg$

Disallow:.gif$

Disallow:.png$

Disallow:.bmp$

…… （其他图片格式）

如何写robots.txt ？

当一个搜索机器人（有的叫搜索蜘蛛）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt ，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索机器人就沿着链接抓取。

注意：robots.txt 必须放置在一个站点的根目录 下，而且文件名必须全部小写 。

爬虫名称	各搜索引擎名称
Googlebot	Google 对网页的索引蜘蛛
Googlebot-Mobile	Google 对移动设备，如手机的索引爬虫
Googlebot-Image	Google 专门针对图片的蜘蛛
Baiduspider	百度综合索引蜘蛛
Slurp	雅虎蜘蛛
YodaoBot	网易有道蜘蛛
Sosospider	搜搜蜘蛛
Sosou spider	搜狗蜘蛛
MSNBot	Live 综合索引蜘蛛

2) 网页中的meta 标签

这里content 的值可以是下面的组合：

content值	代表意思
all	同（index,follow）
noindex	不索引当前页
index	索引当前页
nofollow	不跟踪当前页的链接
follow	跟踪当前页的链接
noarchive	在搜索结果中不保存当前快照
archive	在搜索结果中保存当前快照
none	同( noindex,nofollow)