【读书笔记】这就是搜索引擎

最新推荐文章于 2022-10-01 21:54:15 发布

LogM

最新推荐文章于 2022-10-01 21:54:15 发布

阅读量320

点赞数

分类专栏：搜索&推荐&广告读书笔记文章标签：搜索引擎

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/qq_28739605/article/details/104212441

版权

本文是《这就是搜索引擎》的读书笔记，涵盖了从爬虫、索引、检索与排序到网页反作弊的全方位解析。介绍了抓取策略如宽度优先遍历、非完全PageRank，索引结构如倒排索引，以及链接分析中的PageRank模型。此外，还讨论了网页反作弊策略，包括内容、链接和隐藏作弊的识别与应对方法。

摘要由CSDN通过智能技术生成

作者：LogM

本文原载于 https://segmentfault.com/u/logm/articles，不允许转载~

本文是《这就是搜索引擎》的读书笔记

1. 概述

1.2 搜索引擎技术发展史

第一代：文本检索。关键词与网页内容的相关程度。
第二代：链接分析。PageRank。
第三代：用户中心。理解用户需求。

2. 爬虫

2.1 通用爬虫框架

2.3 爬虫质量的评价标准

抓取网页覆盖率、抓取网页时新性、抓取网页重要性
为了同时满足上述3个标准，google用了多套不同的爬虫，一些关注时新性，一些关注覆盖率。

2.4 抓取策略

宽度优先遍历：暴力但有效
非完全PageRank：因为PageRank需要拿到所有的页面计算才是准确的，爬虫抓取的时候没有看到所有页面，所以叫"非完全"
OPIC：改进PageRank，实时计算
大站优先

2.5 更新策略

历史参考策略：历史上变动比较快的，抓取频繁一点，一般用泊松过程建模
用户体验策略：保存网页的多个历史版本，查看不同历史版本对用户点击的影响。所以用户点击不到的页面，即使更新快，也不用抓取。
聚类抽样策略：更新快的页面有一些类似的特征

2.6 暗网抓取

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【读书笔记】这就是搜索引擎

本文是《这就是搜索引擎》的读书笔记
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。