搜索引擎核心技术笔记

搜索引擎发展史
1 分类目录:hao123 人工整理
2 文本检索:使用布尔模型、向量空间模型或者概率模型计算查询词和网页文本内容的相关程度
未考虑网页之间的链接关系
3 链接分析:google pagerank技术 未考虑用户的个性化需求
4 用户中心的一代:利用用户查询的时间、地点,过去发出的查询及点击记录来理解用户真正的需求

3个目标:更全 更快 更准

3个核心问题:用户的需求、哪些信息与其需求相关、哪些信息是可以被trust的

网络爬虫:进行网页去重、网页反作弊
互联网页分成5部分:已下载网页集合、已过期网页集合、待下载网页集合、可知网页集合(可通过链接关系发现)、不可知网页集合
爬虫分类:批量型爬虫(明确的抓取范围和目标)、增量型爬虫(持续抓取新网页和更新已有网页)、垂直型爬虫(如何识别网页内容是否属于指定行业)

优秀爬虫的特性:高性能、可扩展性、健壮性、友好性

抓取策略:宽度优先遍历策略(如果某个网页包含很多入链,很有可能被早抓到,而入链个数体现网页重要性,隐含网页优先级假设)
非完全PageRank策略(PageRank是全局算法,这是将已抓取和待抓取的网页结合计算分数,排序后再抓取)
(每当新下载的网页够k个,就重新计算非完全PageRank值)
OPIC策略(online page importance computation)
每个页面都给予相同的cash,每当页面下载后,就将手中的cash平均分给页面中包含的链接页面,然后自己的
cash清空。对于待抓取页面来说,根据手中cash多少排序后优先下载。
大战有限策略:某个网站等待下载的页面越多就优先。

网页更新策略:(保持已下载页面内容与互联网页面内容同步)历史参考策略、用户体验策略、聚类抽样策略。
历史参考策略:过去频繁更新的页面的将来也会频繁更新。(利用泊松过程来对网页变化进行建模)
用户体验模型:页面变化对搜索质量影响越大就越快更新。
聚类抽样策略:网页有属性,根据属性对网页分类,同一类的更新周期差不多。

暗网抓取:暗网(搜索引擎很难按照常规方式抓取的页面,比如数据库中的数据)
模拟人的操作,挑战(一是查询组合太多(对网站压力大),二是有的查询是文本框(如何填入内容))
查询组合问题:
Google,富含信息查询模板技术,多个维度,如果模板内每个属性都赋值,形成不同的查询组合,如果返回内容
相差较大,那这个查询模板就是富含信息查询模板。
如果内容重复太多,有可能模板维度太高,导致很多组合无搜索结果。
文本框填写:首先需要人工提供一个与网站内容相关的初始种子查询关键词表。之后根据返回内容自动挖掘出关键词,形成
新的查询列表。

分布式爬虫:主从式、对等式。

搜索引擎索引:单词文档矩阵、倒排索引
单词词典:哈希加链表、树形结构(B树,最底层的叶子节点存储单词地址信息)
倒排列表:倒排索引项(文档编号、单词在文档中出现次数、出现位置)
实际存储的是文档编号差值,可以更好的对数据进行压缩(一般构建索引的时候可以保证文档编号的顺序)

建立索引:两遍文档遍历法、排序法、归并法
两遍文档遍历:第一次遍历主要目的是获得一些统计信息(文档个数N,不同单词数M,单词在文档中出现几次DF),根据
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值