- 博客(3)
- 收藏
- 关注
转载 转载:浅谈PageRank
我们可以将互联网上的网页模拟为一个节点,而这个网页的“出链”看做是指向其他节点的一条“有向边”,而“入链”则是其他节点指向这个节点的有向边。这样整个网络就变成了一张有向图。事情到此就显得容易解决了,因为我们用图论中最普通的有向图模型,完成了对此类问题的建模。具体的说,网页质量的评估是遵循以下两个假设的:数量假设:一个节点(网页)的入度(被链接数)越大,页面质量越高质量假设:一个节点(网页)的...
2018-12-05 16:36:38
435
原创 信息检索:相关性
布尔模型:直接将查询转换为布尔表达式。基于排序的布尔模型: tf-idf机制:在一份给定的文件里,词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母 区别于IDF),以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。) 逆向文件频率 (inverse d...
2018-12-04 16:53:38
2117
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人