html 文件 状态码,如何解决网站304状态码问题

如何解决网站304状态码问题

304状态码的定义是:如果客户端发送了一个带条件的GET 请求且该请求已被允许,而文档的内容(自上次访问以来或者根据请求的条件)并没有改变,则服务器应当返回这个304状态码。简单的表达就是:客户端已经执行了GET,但文件未变化。

我们都了解搜索引擎蜘蛛喜欢抓爬内容源持续更新的网站。通过特定时间内对网站抓取返回的状态码来调节对该网站的抓取频繁。若网站在一定时间内一直处于[304:没有变化]的状态,那么搜索引擎可能会降低对网站的收录数量。与之相反,若网站变化的频率非常之快,每次抓取都能获取新版本,那么日积月累,搜索引擎的回访率也会提高。

无论是抓取少还是304,这都是一种现象,并不是问题的原因,假设网站返回的都是200,就能达到提升排名带来流量的目的么?相比之下更应该思考产生304的原因是什么?改304对网站目标能够有什么样的效果?不能忽视整体的目标而强调过程的细节,为了200而去解决304。

304状态是如何产生?

服务器为了将网站访问速度提高,对之前访问的部分页面制定缓存机制,当客户端在此对这些页面进行请求,服务器会根据缓存内容判断页面与之前是否相同,若相同便直接返回304,此时客户端调用缓存内容,就不用进行在一次下载,可以说304从某种角度起到了减少服务器带宽并提高蜘蛛爬行效率的作用。

304状态产生原因?

1、页面更新周期长或不更新

2、纯静态页面或强制生成静态html

304状态处理思路?

1、先对产生304页面进行细分,到底是哪类页面返回了304?这些页面是否应该返回304?

2、这些页面生成的方式是怎样的?是否有更新机制?更新时间是否符合蜘蛛对网站的抓取频率?

3、页面更新区域的位置是否合理?是否位于该页面主要内容的承载区域?

304状态码出现过多会造成以下问题:

1、网站快照停止

2、收录减少

3、权重下降

那么如何减少304返回码呢?

1、内容更新方面要符合蜘蛛抓爬的特点,分析网站日志,把蜘蛛到访的时间记录下来,可以大致得出蜘蛛到访的频率,然后以此为依据,更新文章:一定是原创+转载,不能纯采集。转载也需要是最新的优质资源,让蜘蛛一眼看过去就喜欢收录,从而返回更多 200 正常码。

2、增加用户互动版块,现在的网站基本上都有做这方面框架,比如评论、留言等,大网站更新起来变化可能会很小,但是有了这些互动,用户会在上面发些内容,网站会有很多新的东西。如seowhy,就会把最新回复以及问题放在重要位置。

最后来举个网站日志的例子

2016-12-26 20:40:50 ——代表访问的日期和时间。

W3SVC7499849XX ——代表虚拟主机的名称

61.145.116.XX ——代表访问ip

GET ——代表访问的方法

/asyj/1112_5544.html[2]——代表具体访问的文件

80 ——代表访问的端口

123.125.71.78 ——代表来源ip

Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://***.baidu.coX/search/spider.html) ——代表访问来源;这里是代表百度蜘蛛。注*换为w

304 ——304返回码。这个也是这里介绍的重点。这里表示客户端已经执行了GET,但文件未变化

前一个0 ——代表服务端传送到客户端的字节大小

后一个0 ——代表客户端传送到服务端的字节大小

本文链接:https://www.gggooo.com/marketing/637.html

服务器

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值