老程序猿创业记(2):使用搜索技术

十年前,懂得搜索技术的人,应该是“计算机科学中的战斗机”。

不过这几年,随着Lucene、Nutch等一大批开源软件,搜索变成普通的技术了。我也是这些开源软件的受益者,不但顺利完成毕业论文,找工作也靠这个吹嘘。


搜索技术,也叫信息检索,理论方面的书籍包含:《现代信息检索》、《信息检索导论》、《搜索引擎:信息检索实践》等书籍,详见信息检索推荐书籍

信息检索的核心技术:

  1. 分词;
  2. 倒排序;
  3. 索引构造、索引压缩;
  4. 文档评分、词项权重计算、向量空间模型;
  5. 检索

其中4是评价一个搜索引擎质量高低的一个重要标准,Google搜索引擎的出色之处是PageRank(当然Google现在不仅仅是PageRank)。


一个现代的搜索引擎不只是包含信息检索,要处理数以亿计的网页,需要上万台服务器,甚至上百万台服务器。 需要使用以下技术:

  1. 分布式文件系统,例如Google的DFS,Hadoop的HDFS;
  2. Map-Reduce;
  3. 以亿计的Key值存储,如Hadoop的HBase;
  4. 等等

上述的技术,是一些商业公司的核心机密,很多细节我们无法知道。


wuawua.com里面的部分内容是通过搜索引擎抓取回来的,流程如下:


wuawua.com的目标是知识管理(并不想成为专业的搜索网站),尽可能采用了大量的开源软件以减少开发成本:

  1. Hadoop,分布式计算;
  2. Nutch,搜索引擎;
  3. Mahout,机器学习;
  4. WebHarvest,信息提取;
  5. Lucene,信息检索;
  6. ......

开源软件只是较少我们重新造轮子的时间,想造出一个美轮美奂的汽车,还是需要花费大量的时间,其中艰辛后面一一叨出来。





  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值