基于Hadoop的Clearinghouse系统架构设计

本文介绍了Clearinghouse(数据交换中心)在大数据环境下的挑战,包括数据量大、增长快以及复杂的分析需求。重点探讨了Clearinghouse在SOA中的角色、大数据环境下的关键技术和架构设计。在SOA中,Clearinghouse既是服务请求者也是服务提供者。关键技术涉及数据分析,强调了Hadoop在处理海量数据时的容错性和扩展性优势。提出了结合数据库和Hadoop设计Clearinghouse,利用数据库的高效查询和Hadoop的数据处理能力,以实现分布实时查询和深度分析。架构设计中,建议采用OGC的CSW目录服务接口作为对外服务接口。
摘要由CSDN通过智能技术生成

1 Clearinghouse(数据交换中心)介绍

       Clearinghouse(数据交换中心)是随着异构组织之间共享空间数据而产生的,它的目标是建立一个虚拟空间数据机制,用来收集空间数据的元数据和发布服务,以便高效的获取空间数据,同时利用空间数据提供决策支持。通常建立Clearinghouse的基本途径是通过一套元数据标准,收集各个组织中空间数据的元数据,通过服务接口帮助用户确定存在哪些数据,以及获取这些数据的方式等。但是随着各个组织中的空间数据的快速增长,其元数据条目也在不断增多。

        Clearinghouse的功能概括如下:

(1)是一个可查询的信息目录。它覆盖所有参与信息共享的地理区域,为用户提供了对相关地理信息进行查询、发布等操作的工具。这个信息目录包含的不是数据本身,而是关于数据的信息,即元数据。

(2)是一个虚拟信息空间。在这里,可以通过简单操作来搜寻和定位感兴趣的地理信息。它是采用统一的元数据,相同的查询和检索协议,以及用于各种元数据收集的注册系统来完成的,可借以实现信息挖掘。

(3)是一个集中式服务系统。所有地理数据的元数据都存放在clearinghouse中,客户端采用现有的Web技术,通过查询元数据来获取数字化地理信息。

       在大数据环境下,Clearinghouse存在和需要解决如下问题:

1)  数据量大,增长快。

        这里所涉及的数据量比传统事务处理大得多,且随时间的推移而累积。在这种环境下对任何一种数据处理平台的一个关键性要求是它必须具有快速的支持系统扩展的应变能力。

2)  分析需求:复杂的数据挖掘算法

       根据TDWI对大数据分析的报告,数据分析由常规分析转向深度分析。深度分析包括数据关联分析、回归分析等复杂分析。

数据分析趋势

2 Clearinghouse关键技术

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值