数学之美读书笔记一 搜索引擎中数学

  最近在读<<数学之美>>这本书,书中讲述了计算机领域所用到的基础数学原理,那些曾认为没什么用的数学原理却是构成计算机的基础。作者吴军,是一位曾在谷歌工作的科学家。

  平时用惯了百度,谷歌等搜索引擎,总觉得这些东西背后的原理可能是高深的不得了,本书的第八章用简洁的语言描述了搜索引擎的数学基础 - 布尔代数。

  布尔代数包括两部分,一是二进制的计数系统,而是二进制的运算规则。二进制在日常生活中并不常用,用的最到的当然是十进制了。二进制的元素只有两个0和1,给这两个元素赋上生活中的含义,如将0表示假,1表示真,这就将数学中的数字和现实中的生活联系了起来。至于二进制的运算规则则是与/或/非三种运算。简单的0和1如何和搜索引擎联系起来呢?

  搜索引擎主要有三部分,一是尽可能的下载互联网中的网页,二是为网页建立关键字的索引,三是用一套排名规则给搜出来的页面排序。如何下载网页那就是网络爬虫的事了,建索引是为了更快的搜出给定关键字的结果。网络爬虫每时每刻在互联网上爬取网页并下载到服务器中,网页的数量达到百亿,千亿乃至更大的数量级别,当用户提交了一个关键字不可能实时的从百亿个网页中一个个的去搜索网页中有没有这个词语,所以需要提前构造一个关键字的列表。假设已经下载了一个亿的网页,一个关键在那些网页里面出现,构造一个非常长的二进制串,第一个网页在,二进制的第一位就是1,不再就是0。一直这样排下去,一亿位的二进制串就能表示这个关键字在哪些网页里面了。搜索引擎事先给常用的几十万个词语进行搜索得到,每个词语就有个二进制串。这些词语和对应的二进制串就是一张非常大的索引表。

 

转载于:https://www.cnblogs.com/uolo/p/8016864.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值