設定 robots.txt (转载)

博客提及Google、Yahoo等网络搜索工具,这些工具在信息技术领域的网络搜索方面发挥着重要作用,能帮助用户快速获取网络信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

主題:設定 robots.txt
工具:Notepad
實例:本站的 robots.txt

內容:

robots.txt 是用來告訴搜尋引擎哪些地方不可以拿去做全文檢索資料庫。

資源自動收集 (Robot) 是搜尋引擎中負責資料收集的軟體,又稱為 Spider、或Crawler。他可以自動在設定的期限內定時自各網站收集網頁資料,而且通常是由一些預定的起始網站開始遊歷其所連結的網站,如此反覆不斷 (recursive) 的串連收集。
 


步驟:

  1. 使用 Notepad 來設定 robots.txt
  2. 上載在網頁的最底部。

編碼:

robots.txt 樣本:

User-agent: {Spider名}
Disallow: {File位置}

例:設定所有 robot 不能夠收集 /tmp/ 和 /download/ 目錄中的資料。

User-agent: *
Disallow: /tmp/
Disallow: /download/

例:設定所有 robot 不能夠收集 etc.htm 和 /index/work.html 中的資料。

User-agent: *
Disallow: /etc.htm
Disallow: /index/work.html

例:設定所有 robot 不能夠收集所有網頁資料。

User-agent: *
Disallow: /

例:設定 Google 不能夠收集 /tmp/ 目錄中的資料。

User-agent: Googlebot
Disallow: /tmp/

例:設定 Google 和 Excite 不能夠收集 /tmp/ 和 /index/work.html 目錄中的資料。

User-agent: Googlebot
User-agent: ArchitextSpider
Disallow: /tmp/
Disallow: /index/work.html

對應表:

搜尋引擎Robot 名稱
 
AltaVista
Scooter
 InfoseekInfoseek
 HotbotSlurp
 AOL SearchSlurp
 ExciteArchitextSpider
 GoogleGooglebot
 GotoSlurp
 LycosLycos
 MSNSlurp
 NetscapeGooglebot
 NorthernLightGulliver
 WebCrawlerArchitextSpider
 IwonSlurp
 FastFast
 DirectHitGrabber
 Yahoo Web PagesGooglebot
 Looksmart Web PagesSlurp
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值