田春峰ID:accesine960
740530次访问,排名47好友15人,关注者86
请用一段话来描述您自己,如性格、爱好、生活态度、工作情况、受教育状况等。让大家更了解你,不要超过1000个汉字
accesine960的文章
原创 245 篇
翻译 10 篇
转载 33 篇
评论 545 篇
田春峰的公告

天天多么乐

田春峰

accesine's Rapleaf Score

关于我的信息链接

Donews Blog

Subscribe with Bloglines

my qq number
最近评论
秒大刀:这有个免费的中文分词系统,貌似还不错,而且官方提供免费更新
http://dev.8jiao.com/index.php/Wb_cws_index
Kevinsh:认同jiaomeng的观点, 错误 != 误差. 个人认为误差是测量值和实际值之间的差别, 和机械加工中偏差有点像, 应该在可接受的范围内. 错误的值完全不同于实际值,比如一个球的颜色是实际值正红色(0xFF0000), 0xFF0001认为是误差,而0x00FF00就是错误了. Bloom Filter中的错误概率比较低时, 比如<0.001%, 认为是可接受的, 错误忽略. 还有个……
chan ming:B to B SERACHENGINE PARTNER WANTED

搜索引擎技术总监 兼職亦可 賣軟件亦可 按件計外包 亦可

提供 “大事业、大学校、大家庭”的平台为每一位员工造就了人生与事业的舞台,让员工与企业共同发展。

共圖大業亦可 本公司有殺着 本公司高超生意頭腦 必能為相方帶來成功感, ……
irplay:C#失去的不仅仅是CPU和内存,更多的失去了客户.
MS的商业策略可以抹杀.net程序员的成功...足以致命.
eastseek:同感, 同感,

加上一条: lucene要结合好DB query很困难。

自己写个cpp的索引和查询器,工作量也不大,
(只要写过CPP超过1年的工程师都顺利拿下)。

尤其是LUCENE的排序,TCL。

文章分类
收藏
相册
Computer Pic
domolo
life
lucene
MsnRobot DingDang
searchengine
search-engine
seo
个人信息
其他
.net
C++
os
sp
工作流
开发工具
名人连接
数据库相关
搜索引擎
网络开发
我的好朋友
移动开发
组件
存档
软件项目交易
订阅我的博客
XML聚合  FeedSky
订阅到鲜果
订阅到Google
订阅到抓虾
订阅到BlogLines
订阅到Yahoo
订阅到GouGou
订阅到飞鸽
订阅到Rojo
订阅到newsgator
订阅到netvibes

原创 基于SEO的Log 日志分析软件应该提供那些功能?收藏

新一篇: 协同推荐系统简介 | 旧一篇: google 生活搜索--- 工作搜索数据来源调查

基于SEO的Log 日志分析软件应该提供那些功能?



今天是连续第3个要过了12点才睡的日子了,希望今天可以告一个段落.

最近在考虑如何做基于 SEO 的日志分析工具, 每天都熬夜, 还真吃不消啊.


当用户在浏览器地址栏输入一个网址的时候,web服务器在返回用户需要页面的同时也记录用户的其他数据,比如用户的浏览器是什么牌子的,用户使用的IP地址,操作系统甚至记录了用户是输入的网址还是从其他链接跳转过来的等等。(好罗嗦)这部分记录无疑是最基础也是最重要的数据,很多web数据挖掘工作都是从这里作为起点进行的。

看过web服务器(比如apache , iis )日志的朋友们都知道,当用户访问一个页面产生的日志并不是只有一行,而是有很多行。稍加注意就会发现,web服务器为当前访问页面中包含的每个文件(图片、javascript脚本等)都生成了一行记录。这一行行的记录就组成了原始日志文件。

对SEO工作来说,分析日志是一项必不可少的基本功。与SEO最相关的信息莫过于搜索引擎的来访记录和从搜索引擎带来的流量2个指标。目前国内网站用户使用的web log 日志分析工具大多使用 awstats 一类的开源工具。可以说awstats的流行,与日志分析爱好者的引荐是有很大关系的比如车东等人。

虽然我也使用awstats等工具,但毫无疑问现在市场上专门针对seo的log日志分析工具还很少见。同时由于awstats采用perl编写,加上使用awstats自有的文件格式,这就导致了在awstats的基础上加以修改提供基于seo的日志分析功能也非容易之事。

那么基于SEO的日志分析应该提供那些功能呢,这就是我这几天想的问题.

目前已经实现了以下三个部分:

1.从原始日志文件中提取 页面访问 的记录 .(去掉 .js , .css , .jpg 等记录)见:"原始Log -> 页面 Log "

2.针对提取出的 页面访问记录 进行派重 (bloom filter), 提取唯一的访问记录.见:"页面Log -> sitemap "

3.针对提取出的  页面访问记录 ,提取从 google 和 baidu 过来的搜索关键词 记录.
见:"页面Log-> 搜索关键字分析"

准备提供的功能:
通用功能: 除去没有意义的请求(如JPG,GIF等), 分析真实的访问请求
多日日志: 蜘蛛的图表
单日日志: 蜘蛛的来访数字, 蜘蛛的来访时间段(这个很重要,可以判定搜索引擎更新频率)



alpha 下载地址





基于SEO的日志分析


发表于 @ 2007年07月23日 23:50:00|评论(loading...)|编辑

新一篇: 协同推荐系统简介 | 旧一篇: google 生活搜索--- 工作搜索数据来源调查

评论

#yongfa365 发表于2007-07-25 07:41:11  IP: 221.223.216.*
iis日志搜索引擎相关访问次数统计vbs版 - 柳永法(yongfa365)'Blog
http://www.yongfa365.com/blog/item/iis-log-Analyzer-vbs.htm
#yongfa365 发表于2007-07-25 07:42:23  IP: 221.223.216.*
搜索引擎来访次数还是比较容易统计的。
#chinakdd 发表于2007-08-21 22:48:19  IP: 60.166.16.*
您好,请允许我们将您的这篇作品转摘到数据挖掘研究院 http://www.chinakdd.com
发表评论  


登录
Csdn Blog version 3.1a
Copyright © 田春峰