搜索引擎核心技术笔记

最新推荐文章于 2024-08-03 21:48:37 发布

dwx2046

最新推荐文章于 2024-08-03 21:48:37 发布

阅读量2.9k

点赞数 2

分类专栏：搜索引擎文章标签：搜索引擎网络爬虫搜索索引压缩

本文链接：https://blog.csdn.net/qq100440110/article/details/53013860

版权

  搜索引擎发展史 

  1 分类目录：hao123 人工整理 

  2 文本检索：使用布尔模型、向量空间模型或者概率模型计算查询词和网页文本内容的相关程度 

  未考虑网页之间的链接关系 

  3 链接分析：google pagerank技术 未考虑用户的个性化需求 

  4 用户中心的一代：利用用户查询的时间、地点，过去发出的查询及点击记录来理解用户真正的需求 

  3个目标：更全 更快 更准 

  3个核心问题：用户的需求、哪些信息与其需求相关、哪些信息是可以被trust的 

  网络爬虫：进行网页去重、网页反作弊 

  互联网页分成5部分：已下载网页集合、已过期网页集合、待下载网页集合、可知网页集合（可通过链接关系发现）、不可知网页集合 

  爬虫分类：批量型爬虫（明确的抓取范围和目标）、增量型爬虫（持续抓取新网页和更新已有网页）、垂直型爬虫（如何识别网页内容是否属于指定行业） 

  优秀爬虫的特性：高性能、可扩展性、健壮性、友好性 

  抓取策略：宽度优先遍历策略（如果某个网页包含很多入链，很有可能被早抓到，而入链个数体现网页重要性，隐含网页优先级假设） 

  非完全PageRank策略（PageRank是全局算法，这是将已抓取和待抓取的网页结合计算分数，排序后再抓取） 

  （每当新下载的网页够k个，就重新计算非完全PageRank值） 

  OPIC策略（online page importance computation） 

  每个页面都给予相同的cash，每当页面下载后，就将手中的cash平均分给页面中包含的链接页面，然后自己的 

  cash清空。对于待抓取页面来说，根据手中cash多少排序后优先下载。 

  大战有限策略：某个网站等待下载的页面越多就优先。 

  网页更新策略：（保持已下载页面内容与互联网页面内容同步）历史参考策略、用户体验策略、聚类抽样策略。 

  历史参考策略：过去频繁更新的页面的将来也会频繁更新。（利用泊松过程来对网页变化进行建模） 

  用户体验模型：页面变化对搜索质量影响越大就越快更新。 

  聚类抽样策略：网页有属性，根据属性对网页分类，同一类的更新周期差不多。 

  暗网抓取：暗网（搜索引擎很难按照常规方式抓取的页面，比如数据库中的数据） 

  模拟人的操作，挑战（一是查询组合太多（对网站压力大），二是有的查询是文本框（如何填入内容）） 

  查询组合问题： 

  Google，富含信息查询模板技术，多个维度，如果模板内每个属性都赋值，形成不同的查询组合，如果返回内容 

  相差较大，那这个查询模板就是富含信息查询模板。 

  如果内容重复太多，有可能模板维度太高，导致很多组合无搜索结果。 

  文本框填写：首先需要人工提供一个与网站内容相关的初始种子查询关键词表。之后根据返回内容自动挖掘出关键词，形成 

  新的查询列表。 

  分布式爬虫：主从式、对等式。 

  搜索引擎索引：单词文档矩阵、倒排索引 

  单词词典：哈希加链表、树形结构（B树，最底层的叶子节点存储单词地址信息） 

  倒排列表：倒排索引项（文档编号、单词在文档中出现次数、出现位置） 

  实际存储的是文档编号差值，可以更好的对数据进行压缩（一般构建索引的时候可以保证文档编号的顺序） 

  建立索引：两遍文档遍历法、排序法、归并法 

  两遍文档遍历：第一次遍历主要目的是获得一些统计信息（文档个数N，不同单词数M，单词在文档中出现几次DF），根据 

关注

专栏目录