搜索引擎指南robots.txt文件

最新推荐文章于 2024-08-03 08:06:24 发布

蓝色水

最新推荐文章于 2024-08-03 08:06:24 发布

阅读量1k

点赞数

分类专栏： SEO 文章标签：搜索引擎 google email 工作

SEO 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

有一種力量其實一直在滲入大量的網站和頁面，我們通常看不到它們，而且它們通常也很蠻橫，大部分人甚至不知道它的存在，大家不要誤會，其實我說得是搜索引擎爬蟲和機器人。每天，上百個這樣的爬蟲會出來對網站進行快速的搜索。不管是不是google打算對整個網路進行索引，還是spam機器人打算收集大量的 email地址，通常它們這樣的尋找是漫無目的的。作為網站擁有者，我們可以通過一個叫做robots.txt的檔來控制哪些動作是機器人可以做的。

　　創建robots.txt文件

　　好，現在我們開始行動。創建一個叫robots.txt的文字檔案，請確保它的檔案名是正確的。該檔必須上傳到在您的網站的根目錄下，而不是二級目錄下(例如，應該是http://www.mysite.com，而不是http: //www.mysite.com/stuff)，只有滿足以上兩點，即檔案名正確和路徑正確，搜索引擎才會根據該檔中的規則工作，否則 robots.txt僅僅只是個常規檔而已，沒有任何作用。

　　現在，你已經知道如果這個檔該如何命名，以及應該把它上傳在何處，接下來你會學習在這個檔中鍵入命令，搜索引擎會遵循一個叫做“ 機器人排除協定”(Robots Exclusion Protocol)的協定。其實，它的格式很簡單，並且能夠滿足大多數的控制需要。首先是一行USERAGENT用來識別爬蟲類型，緊跟著的是一行或者多行DISALLOW，這些行是用來限制爬蟲訪問網站的一些部分的。

　　1) robots.txt基本設置

　　User-agent: *

　　Disallow: /根據以上的聲明，所有的爬蟲(這裏用*表示出來)均不允許對您的網站的任何部分進行索引，這裏的/表示所有頁面。通常情況下這不是我們需要的，但這裏僅僅是讓大家有個概念而已。

　　2) 現在讓我們做一些小小的改動。儘管每個站長都喜歡Google，但是你可能不希望Google的鏡像機器人挖掘你的網站，也不希望它把你的網站的鏡像放在網上，實現線上搜索，如果僅僅是為了節省你的網站所在的伺服器的帶寬，下面的聲明可以做到這一點

　　User-agent: Googlebot-Image

　　Disallow: /3) 以下代碼不允許任何一個搜索引擎和機器人挖掘目錄和頁面資訊

　　User-agent: *

　　Disallow: /cgi-bin/

　　Disallow: /privatedir/

　　Disallow: /tutorials/blank.htm4) 你還可以對多個機器人設置不同的目標，看看下面的代碼

　　User-agent: *

　　Disallow: /

　　User-agent: Googlebot

　　Disallow: /cgi-bin/

　　Disallow: /privatedir/這個設置很有趣，這裏我們禁止了所有的搜索引擎對於我們的網站的挖掘操作，除了google，在這裏Google被允許訪問除了/cgi-bin/和/privatedir/以外的所有站點。這裏說明，規則是可以定制的，但不是繼承而來的。

　　3) 有另外一種使用Disallow的方法:即允許訪問網站所有內容，其實只要冒號後不輸入任何東西就可以了

　　User-agent: *

　　Disallow: /

　　User-agent: ia_archiver

　　Disallow:在這裏，除了alex以外的所有爬蟲都不允許搜索我們的網站

　　4) 最後，一些爬蟲現在支援Allow規則，最著名的就是Google。正如這個規則的名字所說，"Allow:"允許你精確的控制那些檔或者檔夾是可以被訪問的。然而，這個檔目前還不是robots.txt協定的組成部分，所以我建議只有在必須使用時才使用它，因為一些不夠聰明的爬蟲可能認為它是錯誤的。

　　下面的內容來自於Google's的FAQs for webmasters，如果你希望除了Google以外的爬蟲都不挖掘你的網站，那麼以下的代碼是做好的選擇

　　User-agent: *

　　Disallow: /

　　User-agent: Googlebot

　　Allow: /

　　原文:http://javascriptkit.com/howto/robots.shtml 譯者:Tony Qu，BluePrint翻譯團隊

蓝色水

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
搜索引擎指南robots.txt文件

有一種力量其實一直在滲入大量的網站和頁面，我們通常看不到它們，而且它們通常也很蠻橫，大部分人甚至不知道它的存在，大家不要誤會，其實我說得是搜索引擎爬蟲和機器人。每天，上百個這樣的爬蟲會出來對網站進行快速的搜索。不管是不是google打算對整個網路進行索引，還是spam機器人打算收集大量的 email地址，通常它們這樣的尋找是漫無目的的。作為網站擁有者，我們可以通過一個叫做robots.txt的檔來
复制链接

扫一扫

专栏目录