技术方法
数据映射的技术方法主要包括以下几种:
- 手工法:
- 手工法涉及开发人员手动编码数据源和目标架构之间的链接。
- 这通常使用如XSLT这样的计算机语言来编写代码,将XML文档翻译成各种格式。
- 然而,随着数据系统的扩展和复杂化,手工法可能变得过时且无效,因为它难以跟上数据映射的需求。
- 尽管如此,当数据库适度或不是很复杂时,它仍然是一种实用的一次性操作映射方法。
- 半自动化方法:
- 半自动化数据映射需要编码知识,介于传统的手动和自动信息/数据映射方法之间。
- 数据映射软件在数据源之间建立链接,而IT专家则根据需要手动调整连接。
- 这种方法对于预算有限的公司或在处理少量数据并希望执行各种迁移、集成和转换时特别有用。
- 可视化操作:
- 可视化操作支持用户在数据项之间画一条线以定义数据项之间的对应关系。
- 有些工具甚至可以自动建立这种对应关系,这通常要求数据项具有相同的名称。
- 无论采用手工方式操作还是自动建立关系,最终都需要工具自动将图形表示的对应关系转化成可执行程序,如XSLT、JAVA、C++等。
- 数据驱动的映射:
- 在处理复杂的数据映射时,可以利用统计方法分析源数据库和目标数据库的实际数据,挖掘出数据对应关系。
- 这是一种数据驱动的方法,代表了数据映射领域的一个前沿研究方向。
- 使用专用软件:
- 一些数据映射软件如GraphXR,可以通过可视化操作支持用户以边、节点的方式直接定义数据间的对应关系,方便没有编程语言基础的用户快速便捷地将自己需要的数据模型抽象并可视化出来。
- 编程语言定义:
- 除了上述方法外,数据映射也可以使用编程语言(如C++、JAVA等)来直接定义两组数据元素间的对应关系。
- 这种方法需要较高的编程技能,并且对于复杂的数据映射可能会比较耗时。
主要工具
数据映射的主要工具可以归纳为以下几类:
- 内部部署数据映射工具:
- 适用于拥有大量数据的大型企业,特别是当安全性或快速可访问性是主要关注点时。
- 示例工具包括IBM InfoSphere、Informatica PowerCenter、Microsoft SQL、Talend Data Integration、webMethods等。
- 开源数据映射工具:
- 提供了映射数据的低成本方式,适用于较小和较不复杂的数据集。
- 这些工具通常需要一些编程技能才能启动和运行。
- 流行的开源数据映射工具包括CloverETL、Pentaho、Pimcore、Talend Open Studio等。
- 基于云的数据映射工具:
- 允许用户相对轻松地集成、映射、存储和访问来自任何源和任何格式的所有数据。
- 这些工具通常具有专家设置和支持,以确保用户从产品中获得最大收益。
- 顶级基于云的数据映射工具包括Alooma、Dell Boomi AtomSphere、Informatica Cloud Data Integration、Jitte等。
- 图形界面工具:
- 这类工具具有拖放或点击选择的图形界面,易于理解和使用,适用于各种水平的用户,从初级开发人员到业务线用户。
- Talend Open Studio、Pentaho Data Integration等平台就是这类工具的典型代表。
- 模式映射工具:
- 这类工具专注于在关系模式和XML模式之间进行映射,并支持多种查询和转换语言。
- IBM的Clio和Altova的MapForce2005是此类工具的例子。
- XML开发环境:
- 如Stylus Studio 6,它聚焦于XQuery/XSLT可视化和转换,是Progress Software的XML开发环境。
- 数据仓库开发工具:
- 例如Oracle Warehouse Builder 10g Release 1,它是基于Oracle 10g数据库系统的数据仓库开发工具,包含ETL(提取、转换、加载)过程和一个模式映射步骤。
- 全自动/低代码工具:
- 对于希望自动化数据映射过程并管理其他数据管理任务的场景,可以考虑使用全自动或低代码的数据映射工具。
- 这些工具通常作为更大产品套件的一部分提供,如iPaaS(集成平台即服务)解决方案。