关系数据库在我看来即将让出数据库主力的位置,信息系统和互联网发展到这个地步关系数据库的不适合已经开始被很多人重视起来。
这里一个很重要的因素是信息并非格式化,或者暂时是非格式化的。比如你要存储一个案件档案,发案地点,发案时间,报案人,等等这些都是格式化的,这些用关系数据库处理非常合适。不过作案过程有些时候就难于用关系数据库很好的存储进去了。在摸索作案模式的过程中,这些内容按照一定的格式存储很困难。而破案辅助系统的一个作用就是选择一种机制可以寻找合适的模式,从而寻找发案规律,以及串案和连环案件等等。实际上经处理后的数据是可以格式化的,但是问题在于格式化后就是档案,只能被时候查询,对当前的助益并不很大。当然随着我们队侦破的原理的研究,格式化的工作会更加容易,并且结合具体的采集证据的工作,可以再开始阶段就形成格式化的数据。但是问题在于新类型案件,并不存在固有模式,或者说现有模式库中不存在相关案件的合适对照情况下,问题就显得比较为难。这个时候你存储的仅仅是分格式数据,关系数据库的强大功能都无法使用在这些地方。而越是这样的非格式数据,被查询和被分析的需求越是绝大。类似的还有作战指挥系统,以及参谋系统,都会遇到类似问题。
而作为现在比较热门的竞争情报学,也会在企业经营过程总遇到类似的问题。
而因为这些数据的非格式化,使得应用现有基于关系数据库的数据挖掘的可能就比较小。实际上我们从CIA这些年来雇佣的情报分析人员,并没有下降,而是大幅度上升就可以看出,即便他们有最好的技术,以及最好的设备,和最好的技术人员,情报分析还是主要依靠人力。
当然据说xml数据库等新兴的数据库可以部分解决这个问题,但是就目前来说并不很明确。
在我看来,可能解决的方法未必是将数据格式化,而是应该将表达的语言用一种统一规范的语言,而不是人类自然语言完成。当然这种语言可以是基于自然语言的,但是应该更加形式化和固定化。
这里一个很重要的因素是信息并非格式化,或者暂时是非格式化的。比如你要存储一个案件档案,发案地点,发案时间,报案人,等等这些都是格式化的,这些用关系数据库处理非常合适。不过作案过程有些时候就难于用关系数据库很好的存储进去了。在摸索作案模式的过程中,这些内容按照一定的格式存储很困难。而破案辅助系统的一个作用就是选择一种机制可以寻找合适的模式,从而寻找发案规律,以及串案和连环案件等等。实际上经处理后的数据是可以格式化的,但是问题在于格式化后就是档案,只能被时候查询,对当前的助益并不很大。当然随着我们队侦破的原理的研究,格式化的工作会更加容易,并且结合具体的采集证据的工作,可以再开始阶段就形成格式化的数据。但是问题在于新类型案件,并不存在固有模式,或者说现有模式库中不存在相关案件的合适对照情况下,问题就显得比较为难。这个时候你存储的仅仅是分格式数据,关系数据库的强大功能都无法使用在这些地方。而越是这样的非格式数据,被查询和被分析的需求越是绝大。类似的还有作战指挥系统,以及参谋系统,都会遇到类似问题。
而作为现在比较热门的竞争情报学,也会在企业经营过程总遇到类似的问题。
而因为这些数据的非格式化,使得应用现有基于关系数据库的数据挖掘的可能就比较小。实际上我们从CIA这些年来雇佣的情报分析人员,并没有下降,而是大幅度上升就可以看出,即便他们有最好的技术,以及最好的设备,和最好的技术人员,情报分析还是主要依靠人力。
当然据说xml数据库等新兴的数据库可以部分解决这个问题,但是就目前来说并不很明确。
在我看来,可能解决的方法未必是将数据格式化,而是应该将表达的语言用一种统一规范的语言,而不是人类自然语言完成。当然这种语言可以是基于自然语言的,但是应该更加形式化和固定化。