网站robots.txt文件是什么，如何设置

最新推荐文章于 2024-02-23 22:27:26 发布

凯特林奇遇记

最新推荐文章于 2024-02-23 22:27:26 发布

阅读量1k

点赞数 8

文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41653249/article/details/134634678

版权

关于 robots.txt文件

robots.txt是一个纯文本文件，是爬虫抓取网站的时候要查看的第一个文件。例如一个机器爬虫想要访问一个网站 URL，比如 http://www.123.com/welcome.html。在这样做之前，它首先检查 http://www.123.com/robots.txt，并发现：

User-agent: * 表示此部分适用于所有机器人
Disallow: / 表示告诉机器爬虫它不应该访问网站上的任何页面

也就是说robots.txt文件定义了爬虫在爬取该网站时存在的限制，哪些部分爬虫可以爬取，哪些不可以爬取。robots.txt文件在哪，一般位于网站的根目录下。

robots.txt文件的用法(3语法2通配符)

三个语法如下：

1、User-agent:（定义搜索引擎）

示例：

User-agent: *（定义所有搜索引擎）
　　　User-agent: Googlebot （定义谷歌，只允许谷歌蜘蛛爬取）
　　　User-agent: Baiduspider （定义百度，只允许百度蜘蛛爬取）

不同的搜索引擎的搜索机器人有不同的名称，谷歌:Googlebot、百度:Baiduspider、Yahoo:Slurp

2、Disallow:（用来定义禁止蜘蛛爬取的页面或目录）

示例：

Disallow: /（禁止蜘蛛爬取网站的所有目录 “/” 表示根目录下）
　　　　Disallow: /admin （禁止蜘蛛爬取admin目录）
　　　　Disallow: /abc.html （禁止蜘蛛爬去abc.html页面）
　　　　Disallow: /help.html （禁止蜘蛛爬去help.html页面）

3、Allow:（用来定义允许蜘蛛爬取的页面或子目录）

示例：

Allow: /admin/new/（允许蜘蛛爬取admin下的new目录）
　　　　Allow: /admin/123.html（允许蜘蛛爬取admin目录中的123.html页面）

两个通配符如下：

4、匹配符 “$”

$ 通配符：匹配URL结尾的字符

5、通配符 “*”

* 通配符：匹配0个或多个任意字符

robots.txt文件常用

1.禁止抓取/test/目录下的所有以”.htm”为后缀的URL（包含子目录）

Disallow: /test/*.htm$

2. 禁止抓取网站中所有的动态页面

Disallow: /*?*

3.禁止搜索引擎抓取特定目录：如禁止搜索引擎抓取test目录

　Disallow: /abc/

4.禁止搜索引擎抓取网站所有的图片：（以百度为例）

User-agent: Baiduspider
　　Disallow: /*.jpg$
　　Disallow: /*.jpeg$
　　Disallow: /*.gif$
　　Disallow: /*.png$
　　Disallow: /*.bmp$

凯特林奇遇记

关注

8
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
网站robots.txt文件是什么，如何设置

网站站点机器人设置
复制链接

扫一扫

凯特林奇遇记 CSDN认证博客专家 CSDN认证企业博客

码龄7年

28: 原创

28万+: 周排名

5万+: 总排名

1万+: 访问

: 等级

540: 积分

166: 粉丝

239: 获赞

11: 评论

183: 收藏

私信

关注

热门文章

分类专栏

最新评论

什么是Nofollow和Dofollow
CSDN-Ada助手: 恭喜你写了这么有意义的一篇博客！对于Nofollow和Dofollow的解释很清晰，让我对这两个概念有了更深入的了解。不过，我觉得你可以考虑在下一篇博客中分享一些实际应用的案例，或者是一些优化技巧，这样可以让读者更好地理解并应用这些知识。期待你的下一篇作品！
2023外链资源合集-持续更新中
CSDN-Ada助手: 恭喜您发布了“2023外链资源合集-持续更新中”这篇博客！能够持续更新并分享资源真的非常不容易，您的辛勤付出将会受到更多人的认可和欣赏。希望您在未来的创作中能够继续保持这样的热情和耐心，也可以考虑增加一些案例分析或者使用技巧，让读者能够更好地理解和应用这些外链资源。期待您的下一篇作品！
给网站添加谷歌星标代码
CSDN-Ada助手: 恭喜您发布了新的博客！添加谷歌星标代码对于网站的优化和用户体验非常重要，您的分享对我们学习很有帮助。接下来，可以考虑分享一些关于网站SEO优化的内容，或者介绍一些实用的网站插件和工具。期待您更多的精彩内容！祝您创作愉快！
外贸常用留言表单-contact form7
CSDN-Ada助手: 恭喜您写了第9篇博客！看到您分享关于外贸常用留言表单-contact form7的内容，我觉得非常实用。希望您能继续保持创作，分享更多外贸相关的经验和知识。或许下一步可以考虑写一些实际案例或者经验分享，让读者更好地理解和应用所学到的知识。谢谢您的分享！
如何排除外贸网站垃圾链接–SEM+Google Search Console排除
CSDN-Ada助手: 恭喜您撰写了第10篇博客！标题看起来非常吸引人，我对您的内容感到非常期待。您选择的主题似乎对于许多人来说都非常实用，因为外贸网站垃圾链接是一个常见的问题。我很高兴看到您结合了SEM和Google Search Console，这将为读者提供解决这个问题的全面指南。在下一步的创作中，我想提出一个建议。或许您可以考虑添加一些实际案例或者个人经验，这样读者们将能够更好地理解您的方法并将其应用到他们自己的外贸网站中。此外，您还可以探索一些其他工具或技术来进一步增强您的排除垃圾链接的方法。总之，我期待着您未来的创作，并感谢您与我们分享您的知识和经验。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。