本来是想同时研究下搜索引擎和Hadoop大数据处理框架的,结果没想到两者也有着记得的关系。
在看了几天的文档,博客后,谈下对搜索引擎的理解,不说那么深奥的,就是浅显的理解。
1,存储网页,(只有搜索引擎里存在足够的内容,你才能搜到你想要的东西哇,之前觉得搜索引擎可以搜到所有的东西,但是其实现在存储的内容只占整个网页世界的30%不到),而这里面就用到了网络爬虫技术,爬取URL,解析网页内容,并存文件。
2,为网页建立索引,这个说白了就是为了让更快的找到网页。
3,对用户的输入内容进行解析(这个里面想来简单,其实很复杂,对用户输入内容进行解析,所以就涉及到分词等算法了。说白了就是让计算机知道用户输的是啥意思)
4,对分词后的用户输入内容,与网页库比较,包括标题或者内容中包含分析内容的。
5,查询完成后将结果返回给用户(这里面又有了排序算法了,就是将怎样的网页最先放在前面)
整个搜索引擎的技术大概包括这一块,当时想来每一步要想自己可以熟练运用,不说精通哇,每个几个月估计也不靠谱。
但是要记得每个高深的技术落地后可能多没有你想象的那么复杂,关键是你实际地去做。