搜索引擎干货-个人总结

最新推荐文章于 2024-09-22 00:51:02 发布

KKCXY

最新推荐文章于 2024-09-22 00:51:02 发布

阅读量281

点赞数

文章标签：搜索引擎 PageRank 相似度 hits算法 TF-IDF

本文链接：https://blog.csdn.net/weixin_39664285/article/details/84948140

版权

相似度计算：
1. 句子相似度：采用余弦相似度方法
2. 文档相似度：
  1. 方法一：通过提取文档关键词，计算词频，然后进行余弦相似度计算
  2. 方法二：w-shingling算法，取AB的三元组集合，分别去重，r（A,B)=交集数/并集数
hits算法：
1. 例如i链向j，即：i->j，另A表示权威值，H表示枢纽值；
2. 有：H（i）=∑A（j） A（j）=∑H（i）
pagerank：
1. pr（A）=（1-0.85）+0.85*∑ (链向A的节点的pr/该节点的出度）；
2. 依次迭代，注意事项：每轮的值会用到当前轮的前面计算出的pr值。
TF-IDF：每个字词重要性与在该文件中出现的次数成正比；与在其他文件中出现次数成反比。
1. TF-IDF=TF*IDF
2. TF=该词个数/文档总的词数（注：作用域为当前文档）
3. IDF=log（所有文档个数总和/包含该词的文档数）
TextRank：
1. 先建表，设置窗口个数k，以该词为核心，统计前后k个词出现的次数，然后填入表格
2. S['词']=(1-0.85)+0.85*∑ (S['词x']/该词列之和）
布隆过滤器：
1. 用k个不同的哈希函数将该元素拆分成k个值，用映射函数将k个值映射为一个位数组的k个点
2. 有0，则一定不存在