如何读取网络日志的方法

最新推荐文章于 2024-05-31 10:37:00 发布

cryingknife

最新推荐文章于 2024-05-31 10:37:00 发布

阅读量2.4k

点赞数

分类专栏：工作点滴文章标签：网络浏览器 safari 搜索引擎服务器 mozilla

工作点滴专栏收录该内容

2 篇文章 0 订阅

订阅专栏

所谓的网络日志就是搜索引擎爬虫爬取网站页面的一种记录，通过查看网络日志我们可以分析蜘蛛爬行有无异常，从而得知网站是否产生对搜索引擎的不友好度。此外还可以查看网友的访问记录。网络日志对网站的安全也起着监管左右，如果某个IP访问量过大，就有可能是想侵入后台系统或者其他危害网站安全的行为。

网络日志是一种存文本形式，在空间商提供的后台就可以下载，一般的命名是ex某年某月某日.log。通过记事本我们就能打开它。那么究竟该如何读取呢？这才是 ZAC今天想要告诉大家的。

就从嘉兴SEO的博客说起。我们先在日志里复制一段出来：

2011-10-19 23:46:34 W3SVC103 175.41.23.4 GET /ZAC/54.html - 80 - 123.125.71.33 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 1236 0 292

第一段表示的自然是时间.

W3SVC103表示万维网不用去管它。

175.41.23.4网站服务器的IP地址

GET：指服务器所作的动作，get的意思是获取

/ZAC/.54html：我博客中的文件

80：东八区

Baiduspider+(+http://www.baidu.com/search/spider.htm) ：百度蜘蛛。关于其他爬虫的名字我在之前如何写robots的博文里说到过。

其他蜘蛛的类型表现形式为：

Baiduspider+（+http://www.baidu.com/search/spider.htm）百度蜘蛛

Mozilla/5.0 （compatible; Yahoo！ Slurp China; http://misc.yahoo.com.cn/help.html）雅虎中国蜘蛛

Mozilla/5.0 （compatible; Yahoo！ Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp）英文雅虎蜘蛛

Mozilla/5.0 （compatible; Googlebot/2.1; +http://www.google.com/bot.html） Google蜘蛛

msnbot/1.1 （+http://search.msn.com/msnbot.htm）微软 Bing蜘蛛

Sogou+web+robot+（+http://www.sogou.com/docs/help/webmasters.htm#07）搜狗蜘蛛

Sosospider+（+http://help.soso.com/webspider.htm）搜搜蜘蛛

Mozilla/5.0 （compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; ）有道蜘蛛

200：指百度蜘蛛成功获取了此文件。这这里要着重说明下：

200：成功抓取了文件

301：永远转向

302：暂时转向

304：未抓取

400：非法请求

401：无法访问

403：禁止访问

500：服务器内部错误

503：服务器没有应答

1236 0 292：这里指的是文件的大小，单位是字节。

这里分析的是百度蜘蛛的爬取，其他搜索引擎跟蜘蛛大体一致。

除了爬去页面之外（上面介绍的是zac/54html这个页面）蜘蛛还会爬行网站系统的文件。比如：

2011-10-19 00:35:23 W3SVC103 175.41.23.4 GET /themes/j-spring/style/j-spring/nav_bg1.gif-80-115.229.31.105 Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+en-US)+AppleWebKit/534.16+(KHTML,+like+Gecko)+Chrome/10.0.648.205+Safari/534.16 200 0 0 439 453

/themes/j-spring/style/j-spring/nav_bg1.gif：指的是文件，这里是一个gif的图片

Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+en-US)：用户电脑配置。蜘蛛爬行其实是模拟用户访问的方式来爬行的。这里表示的意思是：

Mozilla/5.0+：与Ntescape兼容的Mozilla浏览器

Windows;+U：在美国的Windows系统

Windows+NT+5.1操作系统，这里是Windows XP，因为XP的内核是NT5.1

en-US：语言是美国英语

AppleWebKit：苹果浏览器

KHTML,+like+Gecko：一种代码，我也不太懂，这里不做介绍

Chrome：谷歌浏览器

Safari：Safari浏览器

这里搜索引擎会以各种浏览器的身份去访问网站的文件，这里一共用到了苹果浏览器，谷歌浏览器和Safari浏览器。

当然蜘蛛还会以其他浏览器的身份访问，比如说火狐，IE，360,等等。

本文系嘉兴SEO原创文章，原文地址：http://www.zbseoer.com/ZAC/log.html

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
如何读取网络日志的方法

所谓的网络日志就是搜索引擎爬虫爬取网站页面的一种记录，通过查看网络日志我们可以分析蜘蛛爬行有无异常，从而得知网站是否产生对搜索引擎的不友好度。此外还可以查看网友的访问记录。网络日志对网站的安全也起着监管左右，如果某个IP访问量过大，就有可能是想侵入后台系统或者其他危害网站安全的行为。网络日志是一种存文本形式，在空间商提供的后台就可以下载，一般的命名是ex某年某月某日.log。通过记事本我
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。