数学之美笔记

最新推荐文章于 2022-09-12 16:25:04 发布

spendingAllMyTime

最新推荐文章于 2022-09-12 16:25:04 发布

阅读量450

点赞数

分类专栏：算法其他文章标签：数学之美数学与搜索引擎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/taozhexuan123/article/details/43868959

版权

其他同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

10 篇文章 0 订阅

订阅专栏

真是佩服数学之美的作者，读到了很多自己不知道的知识，大开眼界，简单这个笔记
1、做一个搜索引擎要实现的基础服务
一尽可能多的爬取网页
二建立快速有效的索引

三根据索引的相关性对网页进行公平的排序

这个公平性排序算法就是google创始人拉里和佩奇的论文，pageRank算法

倒排索引

2、布尔代数跟搜索引擎的联系

比如在搜索引擎中搜数学的应用

这里边有两个词数学和应用

笔者说一共大约有30万个词，1000亿个网页，

这样的话维护的一个索引表就是30万乘1000亿大小，索引的每一行是词和词对应的网页的位置比如11001表示第一个第二个第五个网页有搜索的关键词

这样搜索的结果就是数学和应用的词索引值的布尔代数结果。

布尔代数把计算机的01计算和数学结合到了一起。

这张索引是非常巨大的，即使现在的计算机计算能力很强也不能满足，实际工程上是分布式计算来处理的。

3图论和爬虫的关系

这个话题讲的是数学中的图论和搜索引擎基础服务爬取网页的爬虫的关系

格尼斯堡七座桥问题

使用维护一张哈希散列表来实现避免爬取重复的网页

如何构建一个网络爬虫google的面试题：

网络爬虫的定义是如何在有限的时间内爬下更多重要的网页

用广度有先遍历还是深度优先遍历，优先级队列（调度系统）

页面的分析和URL的提取

记录哪些网页已经下载过的小本本

4动态规划

这个问题在我毕业找工作的时候经常会碰到，当时答的不好。书上讲了个例子非常形象

中国地图上标注了n个城市，从北京到广州的话会有n多条线路，问那条线路距离最短。

简单粗暴的算法，排列组合吧所有的可能先列出来，让计算机去算，这样的时间复杂度是10的10次方（比如有平均每个线路上有10个城市，每个节点有10个城市可选）。

而动态规划的做法是，在北京往南的第一次选择中的所有城市画一条线，就是下一站肯定会经过其中一个城市，这样就可以把问题划分为两个问题：

1北京到这条线的哪个城市距离最短

2最短的这个城市到广州那条线路最短（递归了）

这样的话，复杂度是10乘以10乘以10

spendingAllMyTime

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数学之美笔记

真是佩服数学之美的作者，读到了很多自己不知道的知识，大开眼界，简单这个笔记1、做一个搜索引擎要实现的基础服务一尽可能多的爬取网页二建立快速有效的索引三根据索引的相关性对网页进行公平的排序2、布尔代数跟搜索引擎的联系比如在搜索引擎中搜数学的应用这里边有两个词数学和应用笔者说一共大约有30万个词，1000亿个网页，这样的话维护的一个索引表就是30万乘1000亿大小
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。