相信很多SEOER在调用广告的时候都会遇到页面跳转的问题,常用的方式有JS使用 frame 框架调用,或者通过JS代码实现页面跳转到广告页面。
我们先来了解下爬虫的一个抓取过程:
- 首先百度爬虫在第一次发现新网站的时候,首先获取的是首页(index.html)
- 此时一般会使用 111.206.. 或者 123.125.. 段的爬虫先来抓取 css 文件,JavaScript,image 图片等
- 对于已经做好准备工作后,并不是很快就来抓取网站的内页,因为在接下来的一段时间里,会对网站首页信息做分析,并过一个月左右的沙盒期。
- 过了沙盒期的考察,此时回来抓取内页的数据,并陆续根据系统的要求满足而释放部分页面。
了解了整个网站收录到释放的过程,那么对于seoer一些常用的JS调用的广告有什么弊端呢?
- 因为爬虫最早的时候已经爬取了JS文件,那么经过现在的技术识别,爬虫会根据JS代码中的url地址,也会爬取。
- 当爬虫爬取了广告页面的HTML后,就会发现很多页面的标题跟之前的页面标题不符。(这也就为什么我们经常看到内页的标题怎么在搜索引擎搜索的结果里显示的是广告页面的标题)
那么这也的问题能可以避免呢?
当然是可以的,我们从思路上去调整,而不再是从JS代码技术上去用技术避免跟踪。
下面这段代码是PHP根据爬虫来判断是否需要展示广告页面。
也就是说,当是用户访问的时候,我们展现广告页面,是爬虫来拜访的时候我们就给到它作品的数据或者直接拒绝。
php代码分享如下,供参考:
<?php
if(isset($_SERVER['HTTP_USER_AGENT'])){
$USER_AGENT = strtolower($_SERVER['HTTP_USER_AGENT']);
if (stripos($USER_AGENT, strtolower("Baiduspider")) !== false || stripos($USER_AGENT