本文始发于个人公众号:TechFlow
谈及机器学习,大家想必会有许多联想,比如最近火热的人工智能,再比如战胜李世石的AlphaGo,甚至还会有人联想起骇客帝国或者是机械公敌等经典机器人电影。
但实际上目前机器学习虽然应用广泛,但是在各大互联网公司当中,最主要的应用场景变化并不大。基本上还是延续从前的三板斧——搜索、推荐、广告。今天,我们就来聊聊其中的大头——搜索。搜索算法在互联网公司最大的用户就是搭建搜索引擎,而搜索引擎几乎是各大互联网公司的标配,无论是电商、社区还是社交软件,都离不开搜索引擎的身影。BAT三家当中的百度,当年正是凭借的高质量的中文搜索引擎,才一跃成为中国最大的互联网公司之一。
虽然搜索引擎非常重要,也和我们的生活息息相关,但是即使是互联网从业者,了解它的原理结构的也很少。在了解具体的搜索算法之前,不妨让我们先来熟悉一下搜索引擎的架构。看看GitHub当中那些单枪匹马实现搜索引擎的大牛们, 究竟做了一件怎样的事情。
这是一个简易版的搜索引擎架构,原谅我的灵魂画风。
搜索引擎的功能主要分为两个部分