一个信息可视化Demo的设计(二):Index & Search

 

一个信息可视化Demo的设计(二):Index & Search

作者:愤怒的小狐狸    撰写日期:2011-10-29 ~ 2011-10-29

博客链接: http://blog.csdn.net/MONKEY_D_MENG

 

此为系列博文,前续请看第一部分:《一个信息可视化Demo的设计(一):架构设计》

 

一、信息检索

    愈演愈烈的云计算来势汹汹,铺天盖地般席卷全球,逢人言必称云。仿佛只是在一夜间,海量信息、大数据即充斥着我们的世界。信息量极度膨胀的现在,云存储显得极为重要,然而大量的、海量的信息我们存下来究竟寓意为何?答曰:将此数据转换成有用的信息和知识,并将之广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。

    数据丰富,即会需要有强有力的数据分析工具的支撑去寻求和发现知识。快速增长的海量数据存在于大型和大量的数据库中,没有强有力的工具,理解它们已经远远超出了人的能力,决策者难以直观地从海量数据中提取有价值的知识。结果,数据虽丰富,但信息却贫乏,收集在大型数据库中的数据信息变成了“数据坟墓”。

    要对海量数据进行分析和处理,先决条件即需要将信息按照一定的方式组织起来,使得数据分析员能够迅速地找出相关的信息,这一过程即为信息检索。至于数据找到后如何分析,一般是基于数据挖掘和机器学习理论,本文暂不讨论。

    如果直接对信息资源内容做检索,顺序匹配检索请求,对于小数据量的环境,这种方法是非常直接、简单和易于实现的,而且效果也不会太差,但在海量数据环境下,这种扫描过程将是非常耗时的,也是绝对不可取的。

    对于非结构化数据顺序扫描很慢,但对于结构化数据的搜索相对较快。原因在于:结构化数据都是有一定结构的,我们可以采取一些技巧:使用搜索优化算法来加快搜索的速度。所以,到此我们认识到问题的关键在于:我们应该想办法把非结构化的数据处理成结构化数据。这种想法是如此的自然而然,却构成了信息检索的基本思路:即将非结构化数据中的一部分信息提取出来,使其变得有一定结构,然后设计出相应的高效的数据搜索算法和机制,从而签到搜索相对较快的目的。而这部分从非结构化数据中提取出来的,然后重新组织,变得有结构的信息,在信息检索领域,我们便称之为索引。举例说明一下:我们都用过字典,如果没有拼音和部首检索表,要你在那么大一坨字典里找一个词组,那真不是一件Happy的事情,但如果按照拼音或部首进行查询,我们可以很快地定位并找到这个词组,拼音和部首的检索表对于字典而言就是所谓的索引。

 

二、检索需求

    在软件开发过程中,需求这种东西是最悬乎的,飘忽不定,很容易说变就变。笔者在MSRA/STC做过两个月的

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值