搜索引擎算法研究
文章平均质量分 77
wangzhiqing3
学生
展开
-
搜索引擎算法研究专题二:HITS算法及其衍生算法分析
一个网页的重要性分析的算法,是根据一个网页的入度(指向此网页的超链接)和出度(从此网页指向别的网页)来衡量网页的重要性。其最直观的意义是如果一个网页的重要性很高,则他所指向的网页的重要性也高。一个重要的网页被另一个网页所指,则表明指向它的网页重要性也会高。指向别的网页定义为Hub值,被指向定义为Authority值。 通常HITS算法是作用在一定范围的,比如一个以程序开发为主题网页,指向另一转载 2012-04-10 15:10:37 · 1088 阅读 · 0 评论 -
larbin配置
Larbin的使用--安装1、到网上下载 larbin-2.6.3.tar.gz,然后解压。tar zxvf larbin-2.6.3.tar.gz2、 到解压的目录,运行配置文件?./configure却出现以下的错误:?make[2]: 正在进入目录 `/ho原创 2013-09-29 20:10:54 · 4175 阅读 · 0 评论 -
准确率与召回率
在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总。准确率、召回率、F1信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也叫查准率,概念公式: 召回率(Recall) = 系统检索转载 2013-06-08 18:30:10 · 81980 阅读 · 9 评论 -
搜索引擎算法研究专题七:Hilltop算法
HillTop也是搜索引擎结果排序的专利,是Google工程师Bharat在2001年发明的。Google的排序规则经常在变化,但变化最大的一次也就是2003年的基于HillTop算法的优化。 HillTop算法的指导思想和PageRank的一致,都通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大:即主题相关网转载 2012-04-10 15:14:10 · 1744 阅读 · 0 评论 -
搜索引擎算法研究专题一:基于页面分块的搜索引擎排序算法改进
一、传统搜索引擎排序算法概述 1. 1 搜索引擎排序算法概述 搜索引擎查询的结果是按照一定的规则排序供用户查看, 这种规则就是搜索引擎排序算法. 目前几种比较通用的搜索引擎排序算法有Direct Hit 排序算法、PageRank、排名竞价服务和词频位置加权排序算法.Direct Hit 排序算法是一种动态排序算法, 搜索引擎返回的排序结果根据用户的点击和网页被浏览的时间进行变化. P转载 2012-04-10 15:10:37 · 936 阅读 · 0 评论 -
搜索引擎算法研究专题五:TF-IDF详解
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相转载 2012-04-10 15:13:24 · 1055 阅读 · 0 评论 -
搜索引擎算法研究专题六:HITS算法
HITS(Hyperlink-Induced Topic Search)是由Kleinberg在90年代末提出的基于链接分析的网页排名算法。该算法与查询相关。 用HITS算法评估网页质量,可得到内容权威度(Authority)和链接权威度(Hub)。内容权威度与网页自身直接提供内容信息的质量相关,网页被引用得越多,其内容权威度越高;而链接权威度与网页提供的超链接的质量相关,引用内容质量高的网转载 2012-04-10 15:13:24 · 1009 阅读 · 0 评论 -
搜索引擎算法研究专题八:TrustRank算法
改进排名的主流技术之一是借助于人工,专家能准确描述对网站的信任程度、轻易识别出垃圾。虽然人工可以很容易识别这些垃圾,但评估所有页面但代价很昂贵、是不可行的,所以就提出了一种半自动化技术方案。 TrustRank便应势而生,TrustRank是一种由斯坦福大学和雅虎研究人员提出的链接分析技术。TrustRank算法基本思想是在为网页排名时,要考虑到该页面所在站点的信任指数和权威性。 Tr转载 2012-04-10 15:14:37 · 5428 阅读 · 0 评论 -
从5点来分析搜索引擎算法
搜索引擎算法每一次的变动都会牵动着广大站长的心,每个站长都非常想知道搜索引擎的算法是怎样的?如果彻底了解到了搜索引擎的排序准则,那么一定能够让你非常快速的将自己的网站优化到前面,可是搜索引擎的算法却是非常的繁难,对于一名普通的个人站长要想窥探出其中的奥秘,那比登天还难,不过没有关系,我们可以从其他的途径来了解搜索引擎,下面我就将我的经验写出来跟大家分享一下! 一:从网站的结构 搜索引擎转载 2012-04-10 15:16:31 · 1599 阅读 · 0 评论 -
搜索引擎算法研究专题四:随机冲浪模型介绍
Google的Lawrence Page和Sergey Brin为PageRank(PR)算法给出了一个非常简单直观的解释。他们将PageRank视作一种模型,就是用户不关心网页内容而随机点击链接。 网页的PageRank值决定了随机访问到这个页面的概率。用户点击页面内的链接的概率,完全由页面上链接数量的多少决定的,这也是上面PR(Ti)/C(Ti)的原因。 因此,一个页面通过随机冲浪转载 2012-04-10 15:12:16 · 1740 阅读 · 0 评论 -
搜索引擎算法研究专题三:聚集索引与非聚集索引介绍
聚集索引介绍 在聚集索引中,表中各行的物理顺序与键值的逻辑(索引)顺序相同。表只能包含一个聚集索引。 如果不是聚集索引,表中各行的物理顺序与键值的逻辑顺序不匹配。聚集索引比非聚集索引有更快的数据访问速度。 聚集索引通常可加快 UPDATE 和 DELETE 操作的速度,因为这两个操作需要读取大量的数据。创建或修改聚集索引可能要花很长时间,因为执行这两个操作时要在磁盘上对表的行进行转载 2012-04-10 15:11:44 · 709 阅读 · 0 评论 -
google开源gumbo-parser系列
1.DOM元素节点nodeType取值详解Element nodeType values Returned integer Node type Constant1 ELEMENT_NODE2 ATTRIBUTE_NODE3 TEXT_NODE4 CDATA_SECTION_NODE5 ENTITY_REFERENCE_NODE6 ENTITY_NODE7 PROCE原创 2013-10-08 21:22:47 · 8032 阅读 · 1 评论