如何告诉搜索引擎不要来收录站点的页面 meta robots.txt

本来想要整理下搜索引擎收录的原理的,但是发现好像理解的还不是很透彻,起了几个草稿,都没有能完成,那就换个角度,一般大家都知道网站上线了之后,网站的内容就有可能会被用户搜索出来,会出现在搜索结果页上面,用户就能通过链接进去访问站点了。这样站点的浏览就会上去;

但是,某天,给站点添加了一个用户登录功能,用户可以在网站上面进行一些个人信息的展示以及修改,那么,这部分的页面内容其实是不希望被搜索引擎收录的,因为可能会造成用户信息的泄露。那么是否有办法可以告诉搜索引擎不要来收录某些内容页面呢?

答案肯定是有的,虽然不做任何的设置,你的网站也会被收录,但是,我不想被收录也是可以的。目前了解到的方法有2种,先记录下:

  1. 设置meta标签,看了一些seo相关的内容之后才发现,原来meta标签真的好强大;
  2. 网络上存在一种约定,就是在站点的根目录下创建一个 robots.txt 文件。

使用 <meta name="robots" content=''>

可以在页面上添加 <meta name="robots" content=''> 来告诉网络爬虫,本页面是否允许被收录,这个设置缺点就是,每个页面都要设置。它的值有以下这些,可以根据实际情况自由搭配,可以添加多个的;不过,也有浏览器兼容问题;

meta robots 标签是不区分大小写的。(其实所有的meta标签也是不区分大小写的)

根据上图,会发现有允许不允许的设置,其实这个个人感觉允许的设置其实是没有效果的,因为不设置<meta name="robots" content=''>的情况下就是允许,所以,可以这样理解,这个标签只有在想要禁止索引的情况下才会有意义;

还有一个需要注意的细节,就是,设置这个标签之后,搜索引擎是怎么识别出来,其实,设置了<meta name="robots" content=''>之后,并不是说搜索引擎就完全不进来对应的页面了,只是说,搜索引擎不对该页面的内容进行 收录 操作,但是,是会进行 抓取 操作的。

怎么理解上面的话?其实就是说,搜索引擎要把网页的内容收录到它的引擎中,其实前面还有很多个步骤的,那设置了<meta name="robots" content=''>之后,其实第一步的抓取还是会进行的,只是在抓取的时候,设置了<meta name="robots" content=''>,那么搜索引擎就会按照这个标签的属性进行不同的后续操作。

使用 robots.txt 文件

robots.txt 是放在站点根目录的一个文件,里面定义了哪些路由是允许站点爬虫收录的,哪些是不允许的,但是,robots.txt文件的设置,其实并不是一种规范,只是一种网络约定,所以,如果不友好的网络爬虫没有按照规范,先访问robots.txt,那么,站点的内容同还是会被搜索引擎收录的。注意:robots.txt文件名不要拼写错误,且必须都是小写。

robots.txt 文件中常用的参数有

User-agent => 定义下面的规则对于哪些搜索引擎生效;
Disallow => 指定哪些目录或文件类型是不想被检索(抓取)的;
Allow => 指定哪些目录或文科类型是可以被检索(抓取)的;
Sitemap => 指定站点内的sitemap文件位置,需要绝对位置;
复制代码

根据上面的参数,结合站点的需要,可以直接配置,那么配置结束之后是否可以直接上传到服务器?这样是一个危险的操作,虽然robots.txt 文件对于提升站点的SEO,作用并不是十分的大,但是要是配置有误,那么可能会造成搜索引擎不再来收录站点,这会造成比较大的影响的。

所以还是很有必要检查下 robots.txt 文件的语法。目前可以帮忙检测的地方在Google Search Console 里面,需要先认证站点,然后把配置贴入,即可检 robots.txt 编写是否有误;

按照语法,在这个文件中配置好哪些是希望被搜索引擎收录的,哪些是不希望被收录的,这样配置好之后,当有网络爬虫来爬去站点内容时,会先访问

参考资料 (一不小心有帮助别站提高了seo,嘻嘻)

转载于:https://juejin.im/post/5c95d4026fb9a070b153eab7

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值