ML基础——搜索引擎与图书管理,百度与李彦宏

本文介绍了搜索引擎的基本架构,包括爬虫、文本处理和存储、召回与排序等核心环节。爬虫通过互联网链接自动抓取网页,经过HTML清洗和分词处理,建立关键词索引。召回阶段根据用户输入的关键词筛选结果,然后进行精细排序以提供最佳匹配。搜索引擎的优化和性能要求使其成为技术挑战,而其核心思想与图书馆图书管理有相似之处,这也解释了为何李彦宏能成功打造百度搜索引擎。
摘要由CSDN通过智能技术生成

本文始发于个人公众号:TechFlow
在这里插入图片描述
谈及机器学习,大家想必会有许多联想,比如最近火热的人工智能,再比如战胜李世石的AlphaGo,甚至还会有人联想起骇客帝国或者是机械公敌等经典机器人电影。

在这里插入图片描述

但实际上目前机器学习虽然应用广泛,但是在各大互联网公司当中,最主要的应用场景变化并不大。基本上还是延续从前的三板斧——搜索、推荐、广告。今天,我们就来聊聊其中的大头——搜索。搜索算法在互联网公司最大的用户就是搭建搜索引擎,而搜索引擎几乎是各大互联网公司的标配,无论是电商、社区还是社交软件,都离不开搜索引擎的身影。BAT三家当中的百度,当年正是凭借的高质量的中文搜索引擎,才一跃成为中国最大的互联网公司之一。

虽然搜索引擎非常重要,也和我们的生活息息相关,但是即使是互联网从业者,了解它的原理结构的也很少。在了解具体的搜索算法之前,不妨让我们先来熟悉一下搜索引擎的架构。看看GitHub当中那些单枪匹马实现搜索引擎的大牛们, 究竟做了一件怎样的事情。

在这里插入图片描述

这是一个简易版的搜索引擎架构,原谅我的灵魂画风。
搜索引擎的功能主要分为两个部分

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值