文献词权的计算:
文献内频率 * 反文献频率
表示 词权与文献内出现频率成正比,同时与此词在文献集合中出现的频率成反比。
关键字与文献匹配的 计算方法,点积公式:
早起的情报检索都是以词频为词权,缺点两个词频相同的网页可能质量相差很远,人为网页堆砌关键字。
PageRank基本原理:情报检索理论中,引文分析方法,是确定学术文献权威性的重要方法之一。也是PageRank的思想来源。
PageRank在引文分析方法中加入了 对于投票者重要性的分析。
网页U的PageRank值,等于 到达网页U的所有网页的PageRank值除以它的对外链接数值的求和。
PageRank 求值过程:
初始化时,每个节点赋值1/S,重复利用公式计算,直到收敛为固定常数。
PageRank的修正:
实际的网络超链接环境中,并没有把所有的的网页形成一个的牢固的超链接图。会存在连个问题:
等级沉没 rank sink 一组紧密的链接的网页没有对外的链接,就会发生等级沉没,其他非完全图内节点 PageRank值变为0。解决办法,添加一个修正值,使得pageRank值不完全依赖着链接
等级泄露 rank leak 一个独立网页没有对外链接。它的pageRank 值最终会成为0,。解决办法,删除leak节点,或者添加一条返回链接。
文献内频率 * 反文献频率
表示 词权与文献内出现频率成正比,同时与此词在文献集合中出现的频率成反比。
关键字与文献匹配的 计算方法,点积公式:
早起的情报检索都是以词频为词权,缺点两个词频相同的网页可能质量相差很远,人为网页堆砌关键字。
PageRank基本原理:情报检索理论中,引文分析方法,是确定学术文献权威性的重要方法之一。也是PageRank的思想来源。
PageRank在引文分析方法中加入了 对于投票者重要性的分析。
网页U的PageRank值,等于 到达网页U的所有网页的PageRank值除以它的对外链接数值的求和。
PageRank 求值过程:
初始化时,每个节点赋值1/S,重复利用公式计算,直到收敛为固定常数。
PageRank的修正:
实际的网络超链接环境中,并没有把所有的的网页形成一个的牢固的超链接图。会存在连个问题:
等级沉没 rank sink 一组紧密的链接的网页没有对外的链接,就会发生等级沉没,其他非完全图内节点 PageRank值变为0。解决办法,添加一个修正值,使得pageRank值不完全依赖着链接
等级泄露 rank leak 一个独立网页没有对外链接。它的pageRank 值最终会成为0,。解决办法,删除leak节点,或者添加一条返回链接。