第7章 贾里尼克和现代语言处理
第8章 简单之美:布尔代数和搜索引擎
搜索引擎的原理:自动下载网页、建立有效的索引,公平准确的排序。
1. 布尔代数
若文献中含有该关键词,则为True
2. 索引
最简单的索引结构:用一个很长的二进制数来表示关键字是否出现在这些文献中
改进:通过分布式的方式将庞大的索引存储到不同的服务器上(根据网页的序号分成很多份,分别存储在不同的服务器上,每当接受一个查询的时候,就分发给许许多多的服务器,他们同时并行处理)
第9章 图论与网络爬虫
1. 图论:
广度优先搜索:
深度优先搜索
欧拉七桥问题:若一个图能够从一个顶点出发,每条边不重复的遍历一遍回到这个顶点,那么每一顶点的度必须为偶数。
2. 网络爬虫
网页当做节点,超链接当做连接节点的链路
使用‘散列表’(哈希表)记录网页是否下载过
工程要点:
(1). BFS还是DFS:
不是简单地BFS或者DFS,而是一个相对复杂的下载优先级排序的方法(调度系统)
使用BFS(在有限的额时间里最多地爬下最重要的网页,而这些重要的网页主要是首页)
(2). 页面的分析和URL的提取
之前使用HTML语言写的网页,URL很容易提取;但如今很多使用脚本语言,需要模拟浏览器运行一个网页才能解析
(3). URL表(记录哪些下载过)
如何解决不同服务器重复访问表
一.明确每台下载服务器的分工
二.判断URL是否下载,进行批处理