抓取百度页面html,百度蜘蛛不抓取页面的解决方法

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

我们都知道我们网站的页面要想被百度收录必须经过百度蜘蛛的抓取,因此我们要经常关注我们网站页面被抓取的情况,如果遇到不被抓取的情况,那么就要引起我们的注意,我们要分析原因并且解决它。下面我们来看看平顶山中平瑞达科技为我们介绍的内容。

一、查看百度蜘蛛是否抓取页面的方法

这就要查看它的日记文件,一般是以log为后缀。百度蜘蛛是百度用于抓取网页的程序叫,我们查看网站被百度抓取的情况主要是分析,网站日志里百度蜘蛛Baiduspider的活跃性:抓取频率,返回的 H T T P 状态码。

查看日志的方式:

通过 F T P ,在网站根目录找到一个日志文件,文件名一般包含log,下载解压里面的记事本,这即是网站的日志,记录了网站被访问和操作的情况。

因为各个服务器和主机的情况不同,不同的主机日志功能记录的内容不同,有的甚至没有日志功能。

分析:

GET /bbs/thread-7303-1-1.html 代表,抓取/bbs/thread-7303-1-1.html 这个页面。

200 代表成功抓取。

8450 代表抓取了8450个字节。

如果你的日志里格式不是如此,则代表日志格式设置不同。

很多日志里可以看到 200 0 0和200 0 64 则都代表正常抓取。

抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知。抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断。当然,我们希望百度蜘蛛每日抓取的次数越多越好。

二、百度蜘蛛不抓取页面的解决方法

1.网站及页面权重。

这个肯定是首要的了,权重高、资格老、有权威的网站蜘蛛是肯定特殊对待的,这样的网站抓取的频率非常高,而且大家知道搜索引擎蜘蛛为了保证高效,对于网站不是所有页面都会抓取的,而网站权重越高被爬行的深度也会比较高,相应能被抓取的页面也会变多,这样能被收录的页面也会变多。

2.网站的更新频率。

蜘蛛每次爬行都会把页面数据存储起来。如果第二次爬行发现页面与第一次收录的完全一样,说明页面没有更新,蜘蛛也就没有必要经常抓取了。页面内容经常更新,蜘蛛就会更加频繁的访问页面,但是蜘蛛不是你一个人的,不可能就在这蹲着等你更新,所以我们要主动向蜘蛛示好,有规律的进行文章更新,这样蜘蛛就会根据你的规律有效的过来抓取,不仅让你的更新文章能更快的抓取到,而且也不会造成蜘蛛经常性的白跑一趟。

3.文章的原创性。

优质的原创内容对于百度蜘蛛的诱惑力是非常巨大的,蜘蛛存在的目的就是寻找新东西,所以网站更新的文章不要采集、也不要每天都是转载,我们需要给蜘蛛真正有价值的原创内容,蜘蛛能得到喜欢的,自然会对你的网站产生好感,经常性的过来觅食。

4.内链建设。

蜘蛛的爬行是跟着链接走的,所以内链的合理优化可以要蜘蛛抓取到更多的页面,促进网站的收录。内链建设过程中要给用户合理推荐,除了在文章中增加锚文本之外,可以设置相关推荐,热门文章,更多喜欢之类的栏目,这是很多网站都在利用的,可以让蜘蛛抓取更大范围的页面。

5.首页推荐。

首页是蜘蛛来访次数最多的页面,也是网站权重最高的页面,可以在首页设置更新版块,这样不仅能让首页更新起来,促进蜘蛛的来访频率,而且可以促进更新页的抓取收录。同理在栏目页也可以进行此操作。

6.检查死链,设置404页面

搜索引擎蜘蛛是通过链接来爬行搜索,如果太多链接无法到达,不但收录页面数量会减少,而且你的网站在搜索引擎中的权重会大大降低。蜘蛛在遇见死链就像进了死胡同,又得折返重新来过,大大降低蜘蛛在网站的抓取效率,所以一定要定期排查网站的死链,向搜索引擎提交,同时要做好网站的404页面,告诉搜索引擎错误页面。

7.检查robots文件

很多网站有意无意的直接在robots文件屏蔽了百度或网站部分页面,却整天在找原因为什么蜘蛛不来抓取我的页面,这能怪百度吗?你都不让别人进门了,百度是怎么收录你的网页?所以有必要时常去检查一下网站robots文件是否正常。

8.建设网站地图。

搜索引擎蜘蛛非常喜欢网站地图,网站地图是一个网站所有链接的容器。很多网站的链接层次比较深,蜘蛛很难抓取到,网站地图可以方便搜索引擎蜘蛛抓取网站页面,通过抓取网站页面,清晰了解网站的架构,所以建设一个网站地图不仅提高抓取率还能获得蜘蛛好感。

http://www.gulaiyan.com/real/2017030951.html

http://www.gulaiyan.com/real/2017030950.html

http://www.gulaiyan.com/real/2017030952.html

http://www.gulaiyan.com/real/2017030953.html

http://www.gulaiyan.com/real/2017030954.html

http://www.gulaiyan.com/real/2017030955.html

http://www.gulaiyan.com/real/2017030956.html

http://www.gulaiyan.com/real/2017030957.html

http://www.gulaiyan.com/real/2017030958.html

http://www.gulaiyan.com/real/2017030959.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
你可以使用 PHP 的 cURL 库来模拟 HTTP 请求,抓取百度搜索结果页面,并使用 PHP 的正则表达式来匹配页面中的相关搜索词。 以下是一个简单的 PHP 抓取百度搜索结果页面的示例代码: ```php <?php // 设置要搜索的关键字 $keyword = 'PHP'; // 构造搜索结果页面的 URL $url = 'https://www.baidu.com/s?wd=' . urlencode($keyword); // 初始化 cURL $ch = curl_init(); // 设置 cURL 的选项 curl_setopt($ch, CURLOPT_URL, $url); // 设置要请求的 URL curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); // 设置返回结果而不是直接输出到屏幕上 // 执行 HTTP 请求并获取返回结果 $result = curl_exec($ch); // 关闭 cURL curl_close($ch); // 使用正则表达式匹配页面中的相关搜索词,并存储到数组中 $related_keywords = array(); preg_match_all('/<th>(.*?)<\/th>/i', $result, $matches); foreach ($matches[1] as $match) { $related_keywords[] = $match; } // 输出相关搜索词 var_dump($related_keywords); ?> ``` 这段代码会输出类似以下的结果: ``` array(10) { [0]=> string(9) "PHP教程" [1]=> string(9) "PHP开发" [2]=> string(9) "PHP函数" [3]=> string(9) "PHP框架" [4]=> string(12) "PHP面试题" [5]=> string(9) "PHP在线" [6]=> string(9) "PHP手册" [7]=> string(9) "PHP扩展" [8]=> string(9) "PHP安装" [9]=> string(9) "PHP调试" } ``` 这些字符串就是百度搜索结果页面中的相关搜索词。你可以将它们存储到数据库、文本文件或者其他数据结构中,以供后续使用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值