浅谈搜索引擎

      本来是想同时研究下搜索引擎和Hadoop大数据处理框架的,结果没想到两者也有着记得的关系。

      在看了几天的文档,博客后,谈下对搜索引擎的理解,不说那么深奥的,就是浅显的理解。

       1,存储网页,(只有搜索引擎里存在足够的内容,你才能搜到你想要的东西哇,之前觉得搜索引擎可以搜到所有的东西,但是其实现在存储的内容只占整个网页世界的30%不到),而这里面就用到了网络爬虫技术,爬取URL,解析网页内容,并存文件。

      2,为网页建立索引,这个说白了就是为了让更快的找到网页。

      3,对用户的输入内容进行解析(这个里面想来简单,其实很复杂,对用户输入内容进行解析,所以就涉及到分词等算法了。说白了就是让计算机知道用户输的是啥意思)

      4,对分词后的用户输入内容,与网页库比较,包括标题或者内容中包含分析内容的。

      5,查询完成后将结果返回给用户(这里面又有了排序算法了,就是将怎样的网页最先放在前面)


整个搜索引擎的技术大概包括这一块,当时想来每一步要想自己可以熟练运用,不说精通哇,每个几个月估计也不靠谱。

但是要记得每个高深的技术落地后可能多没有你想象的那么复杂,关键是你实际地去做。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值