机器学习与数据挖掘
文章平均质量分 81
xiaoxuch
这个作者很懒,什么都没留下…
展开
-
日志分析方法概述
转自http://stblog.baidu-tech.com/?p=310日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、转载 2011-10-31 23:07:10 · 402 阅读 · 1 评论 -
以求医为例谈搜索引擎排序算法的基础原理
本文转自百度搜索研发部官方博客 http://stblog.baidu-tech.com/?p=121 我们向搜索引擎提交一个查询,搜索引擎会从先到后列出大量的结果,这些结果排序的标准是什么呢?这个看似简单的问题,却是信息检索专家们研究的核心难题之一。 为了说明这个问题,我们来研究一个比搜索引擎更加古老的话题:求医。比如,如果我牙疼,应该去看怎样的医生呢转载 2011-10-31 22:37:54 · 289 阅读 · 0 评论 -
Doclist压缩方法简介 [转者注:搜索引擎设计的倒排索引设计中文档列表的存储压缩]
本文转自: http://www.searchtb.com/2011/07/doclist-compress.html本文是作者在学习doclist压缩时的一点总结,希望以尽可能简单明了的方式描述各个算法的思想和适用场景,帮助同学们理解和比较。本文并不涉及具体的算法实现,代码请大家自行google。这里需要强调的是“所谓的改进顺序”只是作者yy出来方便理解记忆,并不反转载 2011-11-01 23:26:29 · 649 阅读 · 0 评论