【读书笔记】这就是搜索引擎

本文是《这就是搜索引擎》的读书笔记,涵盖了从爬虫、索引、检索与排序到网页反作弊的全方位解析。介绍了抓取策略如宽度优先遍历、非完全PageRank,索引结构如倒排索引,以及链接分析中的PageRank模型。此外,还讨论了网页反作弊策略,包括内容、链接和隐藏作弊的识别与应对方法。
摘要由CSDN通过智能技术生成

作者:LogM

本文原载于 https://segmentfault.com/u/logm/articles,不允许转载~

本文是《这就是搜索引擎》的读书笔记

1. 概述

1.2 搜索引擎技术发展史

  • 第一代:文本检索。关键词与网页内容的相关程度。
  • 第二代:链接分析。PageRank。
  • 第三代:用户中心。理解用户需求。

2. 爬虫

2.1 通用爬虫框架

2.3 爬虫质量的评价标准

  • 抓取网页覆盖率、抓取网页时新性、抓取网页重要性
  • 为了同时满足上述3个标准,google用了多套不同的爬虫,一些关注时新性,一些关注覆盖率。

2.4 抓取策略

  • 宽度优先遍历:暴力但有效
  • 非完全PageRank:因为PageRank需要拿到所有的页面计算才是准确的,爬虫抓取的时候没有看到所有页面,所以叫"非完全"
  • OPIC:改进PageRank,实时计算
  • 大站优先

2.5 更新策略

  • 历史参考策略:历史上变动比较快的,抓取频繁一点,一般用泊松过程建模
  • 用户体验策略:保存网页的多个历史版本,查看不同历史版本对用户点击的影响。所以用户点击不到的页面,即使更新快,也不用抓取。
  • 聚类抽样策略:更新快的页面有一些类似的特征

2.6 暗网抓取

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值