让搜索引擎按你的意图来进行

        在很多的网站中,站长们都忽略了使用robots.txt 文件。因为很多站长认为自己的网站没什么秘密,而且自己也不太会使用robots.txt 的语法,因此一旦写错了就会带来更多的麻烦,还不如不写。

       其实这么想是不对的,如果蜘蛛或小机器人在访问你的网站的一个URL 时,这个URL 不存在,那么就会记录一条404 信息(网页不存在),而robots.txt 就是蜘蛛第一个访问的文件,如果404 的信息过多,那么搜索引擎就会认为该网站的价值较低,从而降低该网站的权重(weight), 那么该网站的排名也自然会排在后面。所以即使你什么也不会,放个空的robots.txt 也好。


                                   ----------------------- 选自《SEO 魔法书》

一般情况下,人们总喜欢自己的网站被搜索引擎收入的越多越好,这就表示自己的网站被搜索到得概率越大。但是,有的网站你还是不希望被搜索收入的,比如后台管理页面,比如电子商务里的购物车页面,这些页面都是忌讳被直接搜到访问的。那如何阻止搜索引擎的收入呢?这正是今天要讲的。

 

1) Robots.txt

什么是robots.txt

robots.txt 是搜索引擎索引你网站的时候要查看的第一个文件。Robots.txt 文件告诉蜘蛛程序在服务器上什么文件是可以被查看的, 而什么文件是不允许被收入的。

所以,第一个方法就是编写robots.txt 。那如何编写?太简单了,就三个指令如下:

User-agent: 对谁(一般指机器人或者说是蜘蛛)

Disallow: 不被允许的文件或路径

Allow: 允许的文件或路径

Robots.txt 里的注释和java 里的属性文件一样用# 注释

1

允许所有搜索引擎访问网站的所有部分

-- 可以建立一个空的robots.tx

或者

# 这里* 代表所有蜘蛛爬虫

User-agent:*

# 这里空 表示没有不允许的内容,即 允许全部

Disallow:

或者

User-agent:*

# 这里/ 表示根目录下所有文件

Allow:/

2 :禁止所有搜索引擎收入网站的所有部分

User-agent:*

Disallow:/

3 :禁止所有搜索引擎访问网站的几个部分(下例中的010203 目录)

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

4 禁止百度索引你的网站:

User-agent:Baiduspider

Disallow:/

5 禁止除百度以外的搜索引擎索引你的网站

#( 一个robots.txt 中可以含有多个User-agent,DisallowAllow 针对的是在他上面并离他最近的那个User-agent)

User-agent:Baiduspider

Disallow:

User-agent:*

Disallow:/

 

  通配符"*""$" 的使用:

 "$" 匹配行结束符。

 "*" 匹配0 或多个任意字符。

使用“$ ”允许访问某个目录下某个后缀的文件

User-agent:*

Allow:.asp$

Disallow:/

禁止索引网站的所有动态页面

(这里限制由?的域名 eg:index.jsp?id=10086

User-agent:*

Disallow:/*?*

禁止百度抓取你网上的图片

User-agent:Baiduspider

Disallow:.jpg$

Disallow:.jpeg$

Disallow:.gif$

Disallow:.png$

Disallow:.bmp$

…… (其他图片格式)

如何写robots.txt

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt ,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

注意:robots.txt 必须放置在一个站点的根目录 下,而且文件名必须全部小写

爬虫名称各搜索引擎名称
GooglebotGoogle 对网页的索引蜘蛛
Googlebot-MobileGoogle 对移动设备,如手机的索引爬虫
Googlebot-ImageGoogle 专门针对图片的蜘蛛
Baiduspider百度综合索引蜘蛛
Slurp雅虎蜘蛛
YodaoBot网易有道蜘蛛
Sosospider搜搜蜘蛛
Sosou spider搜狗蜘蛛
MSNBotLive 综合索引蜘蛛

2)       网页中的meta 标签

<meta name=”robots”   content=””>

这里content 的值可以是下面的组合:

content值代表意思
all同(index,follow)
noindex不索引当前页
index索引当前页
nofollow不跟踪当前页的链接
follow跟踪当前页的链接
noarchive 在搜索结果中不保存当前快照
archive 在搜索结果中保存当前快照
none同( noindex,nofollow)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值