利用开源的 Apache Solr 搜索引擎构建 RESTful 基础存储服务

2 篇文章 0 订阅
1 篇文章 0 订阅

荟萃WebService之RESTful及全文检索框架Solr两大先端技术的文章,

内容简单易懂,非常适合两门技术的入门级学习用。

 

前言

搜索引擎已经成为我们生活的组成部分,对很多人来是已经是每天生活的必须品。无论是 Internet 的搜索引擎,例如 Google、Yahoo 们,还是服务于企业的私有搜索引擎,它们都已经成为我们获得信息的必要手段。搜索引擎优秀的检索性能无疑曾经、且还在给我们留下越来越深刻的印象,而搜索 引擎整合各种各样资源的能力同样令我们刮目相看——无论是私有的数据库、还是晦涩的文件服务器,甚至是您的桌面系统。搜索引擎是如此的令人印象深刻,那么 作为最贴近我们人类思维方式的一种服务形式,它在随时随地、快捷的为我们检索信息以外,搜索引擎还可以为我们做什么?

 

问题的提出

想象一下每天都在发生改变的 Internet:每过一天,就会有越来越多的容纳人类智慧财富的网站、网页连入 Internet 与人分享;每时每刻都有大大小小、各种搜索引擎的爬虫们(Crawler)不知疲倦的访问各个 Internet 站点,它们读取、下载网页后,根据越来越复杂的索引技术对其进行分析,将分析结果缓存下来,为各种各样检索需求提供高性能的服务。

Internet 中每个网页除了自身包含的内容以外,还有各种各样指向外部资源的链接,这些外部链接资源所包含的内容一般是链接源页面的内容的补充、详细说明或参考资源, 这些外部资源页面本身同样也会包含有指向其他资源的链接,外部链接的页面内容和链接源页面内容一起,描述某一个主题。实际上,只要 Internet 上的每个网页都有通向外部资源的链接,那么随便从哪个页面开始,遍历所有的链接,就可以访问到 Internet 的每个网页。

互联网存储了各种各样的海量资源,而搜索引擎给我们提供了访问这些资源的接口,不过这个接口现在只能提供检索服务,那么一个很简单的问题是 自然而然的:搜索引擎是否还可以为我们提供存储服务?假如现在我们把 Internet 倒过来——想象一下:如果搜索引擎不仅仅提供检索各个网页信息的服务,还提供将信息存储到“Internet 的各个网页”的服务,即将各个站点、网页作为存储信息的容器、来提供信息存储服务,那么这是不是一个理想的分布式、近乎无限扩展的基础存储服务系统?

 

灵感来源

让我们先看看人类的大脑结构,虽然现阶段人类对大脑的结构和运作方式的了解还不是那么全面,但是最基本的结构我们还是知道的:人类的大脑中 有数千亿的神经元,各个神经元可能同数以万计的神经元通过树突、轴突连接。当外界的刺激信号传递到某一个神经元时,根据树突和轴突的阀值,受刺激的神经元 可能会将刺激信号传递到与之相关的其他神经元,以此类推,很显然,这是一个类似链式反应的系统。可能随便一个简单的外界刺激信号,就会引起大脑中无数的神 经元产生各种各样的信号,这些信号在传递和交互过程中互相作用和影响,这大概就是人类智慧的来源吧。如果把 Internet 中的每一个网页看作大脑中的一个神经元,而网页中通向外部的链接相当于神经元之间的联系(例如树突和轴突),那么 Internet 也就可以看作是人类智慧的存储系统。

 

本文的目的

本文对使用搜索引擎作为存储服务的思路的实现方法做了简单的分析,并基于开源的 Apache Solr 项目构建一个基础存储服务系统,在此基础上结合一个很简单的 BLOG 网站的例子对存储服务的结构和使用进行了说明。希望本文所探讨的思路能对那些迫切需要大规模、高扩展性存储服务的应用有所启发。

 

更多:http://www.ibm.com/developerworks/cn/web/1006_fengxs_apachesolr/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值