如何阻止搜索引擎收录指定网页

一、关于robots文件

    1. 搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有robots.txt文件,该文件用于指令搜索引擎禁止抓取网站某些内容或 允许抓取某些内容。注意:就算允许抓取所有内容,也要建一个空的robots.txt文件放在根目录下。

    2. 只有在需要禁止抓取某些内容时,robots.txt才有意义,如果该文件为空,就意味着允许搜索引擎抓取所有内容。

    3. 语法解释:

         最简单的robots文件:禁止搜所有搜索引擎抓取任何内容,写法为:

         User-agent:*             

         Disallow:/

        其中,User-agent用于指定规则适用于哪个蜘蛛。通配符*代表所有搜索引擎。如只适用于百度蜘蛛,则写为:User-agent:Baiduspider。谷歌蜘蛛:Googlebot.

                   Disallow告诉蜘蛛不要抓取某些文件。如 Disallow:/post/index.html,告诉蜘蛛禁止抓取Post文件夹下index.html文件。 Disallow后什么都不写,代表允许抓取一切页面。

二、关于meta robots标签

     1. 用于指令搜索引擎禁止索引本页内容。

     2. 语法解释:<meta name="robots" content="noindex,nofollow"> 意思是 禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接。

        noindex:告诉蜘蛛不要索引本页面。

        nofollow:告诉蜘蛛不要跟踪本页面上的链接。

        nosnippet:告诉蜘蛛怒要在搜索结果中显示说明文字。

        noarchive:告诉搜索引擎不要显示快照。

        noodp:告诉搜索引擎不要使用开放目录中的标题和说明。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
想做搜索引擎?自己写算法采集海量网页根本不现实,试想一下,采集数百亿网页成本得多高,更难的还是算法,如果是自己写算法,如何保证用户能搜索到想要的内容,没有大数据,个人或者小团队根本没法做全网搜索引擎,只能用小偷方式抓取数据。现在网上的搜索小偷源码除了火端搜索程序几乎都无法使用,因为只有火端网络在不断完善不断更新这套搜索程序。 火端搜索程序给很多站长带来了很大的好处,很多站长用来做网站SEO、引蜘蛛甚至经过二次开发后做站群,不少站长搭建搜索网站后,两三个月时间都稳定保持在日IP2000+,基本上都是来自搜索引擎。虽然并不是每个域名放上程序就能引流量,但是火端网络看到很大一部分站长经过稍微调整网站后,流量还是很不错的。 主要特色功能: ★全自动抓取百度热搜榜,和百度或者好搜的搜索结果,支持只搜索某个站点 ★强大的扩展功能,可以让搜索指定关键词指定网站排名第几,还可以根据关键词显示不同的广告和指定HTML内容。可以轻松做出很多的web小应用,例如搜索:万年历 、计算器 、 天气 或者直接搜索IP:115.239.210.26 ★完全自定义伪静态规则,让URL更漂亮 ★强大开放的Sitemap功能,轻轻松松做出数百万页面的网站地图 ★搜索结果统一排序功能让你的搜索引擎与众不同 ★手机版独立域名,让移动搜索引擎收录更好

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值