![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法学习笔记
算法学习笔记
Milanien
这个作者很懒,什么都没留下…
展开
-
搜索引擎(二)网页排名算法(1)PageRank
1.算法思想 网页的权重PR(u)等于所有入链网页权重之和∑PR(v)除以入链网页对应的出链数量L(v)。 网页v到网页u的转移概率则为网页v的权重PR(v)。 2.随机游走模型 1)阻尼因子 为了解决网页只有出链或者只有入链而导致的网页权重为0的问题,随机游走模型设置了阻尼因子,阻尼因子模拟了用户通过链接继续点击网页的概率,默认值为0.85。最终计算网页权重的公式如下图,d为阻尼因子,N为页面总数。 2)PageRank计算方法 ①幂迭代法 转移矩阵A和随机赋值的网页初始权重P0不原创 2022-02-20 18:20:20 · 1386 阅读 · 0 评论 -
搜索引擎(一)原理
1.搜集网页 给爬虫一组优质种子网页的链接,爬取这些网页链接到的其他网页。使用布隆过滤器避免重复爬取网页。 2.对网页进行预处理并对网页建立索引 去除html标签,留下网页内容。去除网页内容中的停用词后,将网页内容分词并建立倒排索引,倒排索引指key为单词,value为该单词出现过的所有网页id。 3.对网页进行排名 谷歌使用了PageRank算法对网页进行排名。 4.用户查询 用户输入搜索内容后,搜索引擎对其进行分词,从索引中找到相应网页,并按权重大小排列网页。 5.参考资料 搜索引擎背原创 2022-02-18 17:43:20 · 357 阅读 · 0 评论