数学之美4

第7章    贾里尼克和现代语言处理
第8章     简单之美:布尔代数和搜索引擎

搜索引擎的原理:自动下载网页、建立有效的索引,公平准确的排序。

1.      布尔代数

若文献中含有该关键词,则为True

2.      索引

最简单的索引结构:用一个很长的二进制数来表示关键字是否出现在这些文献中

改进:通过分布式的方式将庞大的索引存储到不同的服务器上(根据网页的序号分成很多份,分别存储在不同的服务器上,每当接受一个查询的时候,就分发给许许多多的服务器,他们同时并行处理)

第9章     图论与网络爬虫

1.      图论:

广度优先搜索:

深度优先搜索

欧拉七桥问题:若一个图能够从一个顶点出发,每条边不重复的遍历一遍回到这个顶点,那么每一顶点的度必须为偶数。

2.      网络爬虫

网页当做节点,超链接当做连接节点的链路

使用‘散列表’(哈希表)记录网页是否下载过

工程要点:

(1).    BFS还是DFS:

不是简单地BFS或者DFS,而是一个相对复杂的下载优先级排序的方法(调度系统)

使用BFS(在有限的额时间里最多地爬下最重要的网页,而这些重要的网页主要是首页)

(2).    页面的分析和URL的提取

之前使用HTML语言写的网页,URL很容易提取;但如今很多使用脚本语言,需要模拟浏览器运行一个网页才能解析

(3).    URL表(记录哪些下载过)

如何解决不同服务器重复访问表

一.明确每台下载服务器的分工

二.判断URL是否下载,进行批处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值