数据中心海量数据实时检索高可用架构介绍

搜索引擎不是人人都能做的领域,进入的门槛比较高,做搜索需要专注,在垂直搜索领域,最上端是对整个搜索用户群体的认识和理解,代表的是公司竞争关键的品牌特征,中部是技术产品应用平台,而最底层部分代表搜索技术,这样就形成了一个楔形的倒三角,他的意义是,楔子要打到墙里,尖端是否锐利很重要,单楔子的破坏性有多强,究竟能在墙里面挤压出多大的空间,其中端、后端的沉稳与厚重才是关键。搜索引擎的技术和理念都是需要时间和经验的积累的,更是需要长期不断的完善进步的,绝对不要认为可以一蹴而就,要达到一个相对成熟领先的搜索引擎从开始到领先的周期一般需要是四年。原因是因为搜索引擎太复杂,垂直搜索大致需要以下技术:

1. 信息采集技术

2. 网页信息抽取技术

3. 信息的处理技术,包括:重复识别、重复识别、聚类、比较、分析、语料分析等

4. 语意相关性分析

5. 分词

6. 索引

我们把对小于5分钟内产生的信息的搜索定义为实时搜索 。在这么短的时间范围内,信息往往还不足以被传统搜索引擎所抓取,这部分信息对用户来说就成了盲区。

对于很多事情例如 新闻、紧急事件、活动 等来说,实时的信息搜索是非常有价值的。


 Datax实时搜索基于Hadoop、Lucene实现实时数据处理,对于2天内的数据可以在100ms内提供查询结果,同事提供1个月内、1年内数据历史查询。实时数据处理的应用场景很广泛, 如个性化搜索广告的会话特征分析。而 Yahoo当初创建S4项目的直接业务需求就是为了在搜索引擎的‘cost-per-click’广告中,能根据当前情景上下文(用户偏好,地理位置,已发生的查询和点击等)来估计用户点击的可能性并实时做出调整。

  这种高可拓展性,能处理高频数据和大规模数据的实时流计算解决方案将被应用于实时搜索,高频交易和社交网络上。而流计算并不是最近的热点,金融机构的交易系统正是一个典型的流计算处理系统,它对系统的实时性和一致性有很高要求。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值