搜索引擎原理科普

导读:本文主要阐述搜索引擎的基本技术。故事纯属虚构,如有雷同,算我抄你。

中堂的烦心事

乾隆六年,皇城和府。

时任内务府总管的和珅正在府邸里来回踱步,让他烦心的是主子乾隆爷交给他的选秀女一事。

“老爷,您这是怎么了?”管家刘全很会察言观色。

“今日早朝,圣上让我负责今年选秀女的事,哎……”和珅叹了口气接着说:“虽然离岁末还有数月,但这茫茫人海,我到哪去给圣上找他要的‘总没有右耳朵’的姑娘啊。”

“啥?没有耳朵的姑娘?”刘全很是惊讶。不过他很快就镇定下来,对和珅说道:“老爷,这历年选秀女,最终送进宫的都是万里挑一筛出来的,别说没有耳朵,哪怕两只耳朵不一般大恐怕都不行吧。想必这又是万岁爷出的题目在考咱呢,您可一定要慎重啊!”

“对啊!”和珅一拍大腿,“这一定是圣上在故意考我呢。走走走,去找老纪,让他帮我想想。”

和珅口中的老纪正是时任国史馆总纂的纪昀(字晓岚)。此人博闻强记、才思敏捷,最关键的是他很善于猜解乾隆皇帝的字谜。

“和中堂,什么风把您给刮来了?”和珅刚一进门,纪昀就拱手示好。没办法,谁让和珅的官职比他高出好几个级别。

“纪大人,我又要来麻烦你了……诶?刘大人也在啊,”这一天内阁学士刘墉恰逢在纪昀家做客,这让和珅很是欣喜,“两位大学士都在,那我这事差不了了。”

和珅向两位同僚叙述了乾隆爷交代给他的事。

思忖片刻,纪昀果真有了答案:“哈哈哈……和中堂,‘总没有右耳朵’指的不就是个聪明的‘聪’字嘛,万岁爷是让您给他找聪慧伶俐的姑娘家啊。”

“哎呀呀,纪大人果然才气过人,圣上定是这个意思,错不了,错不了。”和珅此时茅塞顿开。

(猿知原味注:作为搜索引擎,首先要理解用户的意图——究竟是想搜什么?虽然用户的输入不会像上文中乾隆皇帝那般隐晦,但计算机也远不及纪昀那般聪明,甚至可以说是笨。比如你输“中外科学名著”几个字,对于我们人而言很简单,中外/科学/名著,然而计算机或许就会犯糊涂。对它而言,“外科”、“学名”仅从词库去看也是合理的词,究竟该如何切分是一个问题。这里就涉及到了搜索引擎中的分词算法,这里不展开讨论)

从长计议

一番道谢之后,和珅准备离去,正要走,被刘墉喊住了:“和大人,您这是准备去寻皇上要的聪明丫头吗?”

一句话问得和珅呆住了,心想着“那不然呢?”

“依臣看此事不可操之过急。”见和珅顿住了脚,刘墉接着说道:“咱大清幅员辽阔,随着‘摊丁入亩’的制度实施,现在人口眼看就要破一万万了,想必其中待字闺中的女娃子也不少。大人您这一去少说也得个把月,就算一切进展的顺利,您遴选出了一批秀外慧中的女子带到了万岁爷面前,但倘若到那时咱主子又改了主意,不要聪慧的了,要朴实淡雅的,那中堂您不就白忙活了吗?”

“对对对,大人提醒的极是啊,”和珅刚刚舒展开的眉头又锁了起来,“我做奴才的无所谓白不白忙,但这一来二去的,要是耽搁了给万岁爷上交秀女的时日,那可是欺君之罪啊!刘大人,这事儿您一定得帮帮我,您看这选秀女的事往下该如何进行啊?”

“和大人,您看这样可好,”原来刘墉一早就有了主意,“此次您下民间征召秀女,无需将‘聪慧’列为征求条件,也暂时不必把她们带回宫。您需要做的只是尽可能多的搜罗适龄女子,并将她们的门第、容貌、修养、性格、能力、品行等统统登记造册,回宫之后再对收集到的这些材料加以归纳整理。待圣谕下达之时,您只需要根据整理好的档案,筛选出那些最符合圣上心意的女子,再差人……”

“此计甚妙、甚妙!”刘墉还没说完,纪昀已经忍不住在一旁连连称赞了,“依刘大人的意思,如果在赵家村找了个叫‘赵梨影’的姑娘考察结果是‘白、富、美’,又在关家村找了个叫‘关逍桐’的姑娘考察结果是‘傻、白、甜’,那在我们重新编排之后的档案里,关于‘肤白’的记载,就应该同时存在这两个人。别说今年了,以后任意一届选秀女,只要咱万岁爷好上肤若凝脂的类型,直接把这俩丫头提溜进宫就是了。”

“两位大人简直就是我刘某人的再生父母啊!”听到这,和珅终于醒过味儿了。一边给他们作揖致谢,一边堆着笑脸转向纪昀:“纪大人,刘某在这还有一事相求。我的人到时候都到民间去寻秀女了,听说您最近在负责纂修《四库全书》,等我们将秀女的材料呈到宫中,还得麻烦您分一拨人帮忙整理建档啊。”

“我去,这罗锅(刘墉外号)出的馊主意……”纪昀心中一万头羊驼奔过,可面对乾隆爷身边的大红人又无可奈何,只得苦笑着应道:“应该的,应该的”。

(猿知原味注:如果整个互联网上只有三个网站,用户在搜索一个词的时候完全可以通过字符串匹配的方式找到包含这个词的网站,这很简单。如果有100个网站,以目前计算机的检索速度也能轻松做到毫秒级别的响应。然而,网络上的站点千千万万,若是在用户点击搜索时才从这些多如牛毛的网站中去匹配某个词,那就会犹如大海捞针,显得很不靠谱了。搜索引擎为了解决这个问题,有了“倒排索引”这个概念。上文中将某位秀女的体貌性格等特征登记造册被称之为“正排”,有了所有秀女的正排数据,再在“特征”这个维度下创建“白、富、美、傻、甜”等一系列索引,每个索引对应于具备此项特征的秀女们,这些索引就被称之为“倒排索引”。构建倒排索引是搜索引擎的关键技术,有了它,用户输入N个词,只需要对这N个词的索引所对应的网站列表求交集就可以了)

阅女无数的秘密

“对了,两位大人,刚才我们谈到的都是如何给秀女建档的事,那在搜罗秀女的问题上你们有何看法啊?”看样子和珅今天是赖上纪昀和刘墉了,他接着解释道:“历朝历届选秀女,地方官借此霸占民女的事都时有发生,所以这次万岁爷专门叮嘱过奴才,今年所选秀女不想通过下面的官员举荐了。如此一来,这泱泱大国,我如何才能搜罗到天下所有的秀女啊?”

不得不说,和珅能做到现在这个位置上还是有两把刷子的,一个问题就让两位大学士缄默了。

沉静了好一阵,纪昀说话了:”中堂,您看能否这样。搜寻秀女的差事就从臣府上的两个丫鬟开始,除了把她俩登记之外,再顺便问问,看她们老家还有哪些十三到十六岁尚未婚嫁的女子……“

”老纪,你等等,”和珅打断了纪昀的陈述,“你府上那俩丫头我都清楚,她们那穷乡僻壤的能出几个美人啊?”

“别急啊,和大人,臣是这么想的,”纪昀接着说到:“虽然这两个丫鬟能介绍的人少之又少,但在您去统计这些人的同时,也可以顺便让她们介绍几个各自认识的适龄女子啊,这不就从两个发展到了数十个,数十个发展到了几十个吗?再往后也都如此,对搜罗到的秀女,除了将她们做记录外,还要让她们介绍身边的其他女子,如此一来……”

“如此一来,和大人就如同布下了一张天罗地网,网尽天下美女指日可期啊!纪大人,您这一招真可谓是高啊!”这次轮到刘墉捧纪昀了。

(猿知原味注:纪昀谈到的搜罗方案在搜索引擎中被称作“网络爬虫”(Spider),爬虫通常的做法是利用网页之间的超链接从一定范围的网页出发,提取出指向其他页面的链接,把它们当成将下次要请求的对象。周而复始地重复这个过程,最终从理论上而言,几乎就能爬取到整个互联网上的内容。显而易见的,通过爬虫采集网页是搜索引擎的首要任务)

“刘大人过奖了。臣这法子虽说可以搜罗到绝大多数民间的适龄女子,但毕竟这次不通过地方官举荐了,皇上给的时间又有限,只恐怕临时才去一一登记,不经过长时间的详细考察,对一些性格较为内敛的女子在品行上的评定会有所疏漏啊。”看得出来,纪昀是一个谨小慎微的人。

“不打紧不打紧,”此时的和珅已是志得意满,“纪大人,您就知足吧,数月时间要评定登记上百万的人,能将她们外在表现出来的容貌品行登记造册,不出纰漏就不错了,还哪顾得上她们内不内敛啊。”

(猿知原味注:很多搜索引擎只对爬虫请求到的html感兴趣,而不去解析请求到的javascript。这就使得一些运用前后端分离技术开发的网页就如同上文提到的内敛女子一样,异步渲染的内容很不利于被搜索引擎搜索到,从而影响网站被收录)

排名次

“不过,和大人,有一个问题您还真得考虑到,”刘墉似乎又想到了点什么,他说道:“圣上不是找您要聪明的姑娘吗,臣估摸着按照刚才咱们讨论的方案实施下去,到了年底,纪大人整理的秀女档案里具备‘聪慧’这一条件的女子再怎么说也得万八千个,您不可能将她们全都带进宫面圣吧。是不是也得分个三六九等,只有最最符合条件的一批人方能入选呢?”

“哈哈,刘大人,这有何难呢,”刚当过恩科主考官的和珅对排名这一套玩的很溜,他慢条斯理地说道:“您看,虽说万岁爷只跟为臣提到了聪明,但这其中还有些标准是不言而喻的。咱大清朝选秀女,自顺治爷以来都是满蒙汉的八旗女子或包衣出身,这一下就能筛掉一大半人吧。容貌秀丽、举止端庄,这万岁爷没说但祖制总要遵从吧,这又要筛掉一部分人。再说这‘聪明’也分大聪明亦或是小聪明,从古至今,机关算尽祸乱宫闱的不叫聪明,外戚专权把持朝政的更不叫聪明,把那些尚未进宫就玩小聪明的再筛掉又还能剩多少人呢?”

和珅的一番话让刘墉和纪昀瞠目结舌,似乎和珅在教他们如何成为主子身边的红人,又似乎在告诉他们“你大爷还是你大爷”。

(猿知原味注:我们都知道在使用搜索引擎的时候,它会根据用户搜索的关键词,排列出相关性最高的内容呈现出来。和珅谈到的正是这里所谓的相关性,它对于搜索引擎排名来讲是一门大学问。关键词的词密度、位置、距离等都会影响到搜索引擎对其相关性的判定。除此之外,随着大数据和人工智能的发展,现代搜索引擎在做相关性分析的时候正变的越来越‘懂你’,你输入‘黄晓明的妻子’,出来的一定有大量和Angelababy相关的内容;你手误将‘赵丽颖’输成了‘赵梨影’,没关系,搜索引擎知道你究竟是想输什么;对于一个注重养身、经常搜索食品的人,输入‘苹果’排名靠前的会是水果,而对于一个电子发烧友,输入‘苹果’排名靠前的一定会是手机)

“对了,两位大人,说起给秀女们排名,臣这还有一个困惑,”和珅接着说道:“假设有这么一个人,为了从千千万秀女中脱颖而出,她伪造了满族贵族的身份,用胭脂水粉把自己倒腾的芳菲妩媚,古灵精怪的性格更是伪装的恰到好处。有什么法子能够防止这种作弊行为呢?毕竟我们对其进行评定也就是依据这些表象,短时间内无法有更深入的了解。”

“哎,她们只知道荣华富贵,却不晓得‘一入侯门深似海’啊!”刚刚还在发愣的纪昀发出了感慨。又继续说道:“和大人,臣倒是有个主意可以很大程度上地打击这种作弊。您看啊,一般而言,越是真正的名门望族、国色天香,越会被十里八乡的人所熟知,在您以我们刚才谈到的口口相传的方式去搜罗秀女的过程中,往往那些名副其实的秀女人选会被别人多次提及。相反的,虽然有些伪秀女能用一些办法干扰到朝廷对她们的考察,得到很不错的评定,但如若周边并没几个人知道她们的存在,那这其中就必定有诈了。”

“这法子好,除此之外,对被介绍人的评定在很大程度上也要看介绍人是谁,”刘墉补充道:“比如纪大人家这两个丫鬟,本来就是亲信,介绍的女子应该也比较靠谱,排名就该靠前。而那些信口雌黄,原本口碑就不大好的女子介绍的人就理应往后排。”

(猿知原味注:搜索引擎在计算排名的时候除了看内容和关键词的相关性,对一个网站整体权重的评估也是一个非常重要的依据。比如Google的PageRank算法,就是创始人Larry Page 和 Sergey Brin 当年在斯坦福读博期间搞出来的一个算法,也正是凭借此算法他们创立了Google。其核心思想很简单:1、如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是PR值会相对较高;2、如果一个PR值很高的网页链接到一个其他的网页,那么被链接到的网页的PR值会相应地因此而提高)

“哈哈哈哈……今日造访,受两位大人的启发,我和某人所获颇丰啊。待我完成圣命,即向皇上请旨,给两位大人加官进爵,你们就等我好消息吧。”和珅一边起身,一边拜谢。至此,他心头的石头总算是落地了。

(完)

故事读完了,还是意犹未尽?没关系,关注“猿知原味”公众号(yz--yw),还有一大波生动有趣的干货等着你。

寒冬腊月里的一天,和珅路过神武门,恰巧看到一女子被守卫拦在门外。

“和大人,这女子非说她就是这次选秀女排名第一的人,名叫魏璎珞。”守卫上前禀报道。

和珅凑近打量一番,这女子长的容色清丽、秀雅绝俗。

“看看你们都是什么态度,这指不定以后就会是咱主子,”和珅数落了守卫两句,扭过头一脸谄媚的对女子说道:“魏姑娘,还是烦请您报一下生辰八字,只要和咱档案库里记载的一样,微臣马上带您去面见圣上……”

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值