做前端有一段时间了,由于野路子出身,学的比较杂,木有系统的学习过,?。
其实一直在想,网页的 html doctype meta等标签,我们默默的一直在用,却很少关心他们,其实这些兄弟很有用,功能很强大。
一,Meta标签中如何限制蜘蛛的爬行(抓取)?
为了让搜索引擎禁止抓取本页面,我们一般的做法是在页面的元标记中加入如下的代码:
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
NAME="ROBOTS"是泛指所有的搜索引擎的,在这里我们也可以特指某个搜索引擎,例如META NAME="Googlebot(谷歌蜘蛛)"、META NAME="Baiduspider(百度蜘蛛)"等。content部分有四个命令:index、noindex、follow、nofollow,命令间以英文的“,”分隔。
INDEX命令:告诉搜索引擎抓取这个页面
FOLLOW命令:告诉搜索引擎可以从这个页面上找到链接,然后继续访问抓取下去。
NOINDEX命令:告诉搜索引擎不允许抓取这个页面
NOFOLLOW命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。
延伸一下,我们可以在a标签中 加入 添加rel="nofollw"属性,这样就可以禁止爬虫从本页 跳转到其他页面了,也就是可以起到 预防 导流的作用,通常用在下面的友情链接