xml 和csv的区别
InfoSphere Business Glossary(业务词汇表)使您可以使用受控词汇表来创建,管理和共享业务和组织概念的标准定义。 Business Glossary产品使用类别层次结构,其中类别包含术语。 您可以根据组织的需要使用术语对元数据存储库中的数据资产进行分类。
使用数据填充业务词汇表是使用它的第一步。 在版本8.1.1中,业务词汇表引入了一些使用CSV和XML格式的新导入和导出方法,以便词汇表管理员可以在这些类型的外部文件之间导入和导出词汇表内容。 这些方法在创建词汇表内容时引入了更大的灵活性,使用户可以更轻松,更全面地填充其业务词汇表。
本教程描述并说明了如何使用这些新的导入和导出功能。 本教程包括最佳实践,技巧和示例,以帮助您有效地实现这些功能以填充业务词汇表。
本教程中的示例使用来自IBM行业模型电信业务词汇表内容包的数据。 IBM为各种行业提供InfoSphere Business Glossary内容包,包括银行,保险,电信,零售和医疗保健。
选择导入方法
CSV和XML是常见的导入方法。 根据多种因素来决定使用哪种导入方法来填充业务词汇表,包括现有词汇表的内容和业务词汇表管理人员的技能水平。
-
CSV
- CSV格式很简单。 它具有包含类别和术语及其属性值(例如描述,缩写和自定义属性值)的功能。 它还使您能够定义管家关系。 XML格式
- XML格式更全面,更复杂。 它具有定义术语,类别和其他对象类型(包括与其他术语有关的术语,与术语有关的类别,链接到已分配资产的术语)之间的每种可能关系的功能。
您可能已经具有某种格式的词汇表版本,并且想要使用该内容来开始填充新的业务词汇表。 或者,您可以选择从头开始构建业务词汇表。 因为这些方案从不同的角度出发,所以推荐的导入方法可能有所不同。
如果数据在电子表格中,则可能应将现有电子表格转换为Business Glossary CSV格式。 如果从头开始,请根据需要导入的数据类型和技术技能水平选择导入方法。
表1和表2描述了CSV文件和XML文件中可以包含的值。
表1. CSV和XML文件中可用于类别的值
类别属性 | CSV文件 | XML文件 |
---|---|---|
名字 | 是的,如果仅针对新类别添加; 现有术语或类别的名称不能更改。 | 是 |
详细说明 | 是 | 是 |
简短说明 | 是 | 是 |
子类别 | 是 | 是 |
父类别 | 是的,如果仅针对新类别添加; 现有术语或类别的父类别不能更改。 | 是 |
参考条款 | 没有 | 是 |
包含的条款 | 是 | 是 |
自定义属性 | 没有 | 是 |
自定义属性值 | 是,如果目标元数据存储库中已经存在定制属性。 如果自定义属性不存在,则导入失败。 | 是 |
链接到管家 | 是的,如果目标元数据存储库中已经存在管理者。 如果管理者不存在,则导入失败。 | 是,如果目标元数据存储库中已经存在该用户或用户组。 如果用户或用户组不存在,则不会创建管家关系,但是会成功导入其他内容。 |
表2. CSV和XML文件中可用于术语的值
期限财产 | CSV文件 | XML文件 |
---|---|---|
名字 | 是的,如果仅是为一个新术语添加的话; 现有术语或类别的名称不能更改。 | 是 |
详细说明 | 是 | 是 |
简短说明 | 是 | 是 |
缩略语 | 是 | 是 |
用法 | 是 | 是 |
例子 | 是 | 是 |
状态 | 是 | 是 |
相关条款 | 没有 | 是 |
属性IsModifier | 是 | 是 |
属性类型 | 是 | 是 |
同义字 | 没有 | 是 |
包含(父)类别 | 是的,如果仅是为一个新术语添加的话; 现有术语或类别的父类别不能更改。 | 是 |
自定义属性 | 没有 | 是 |
自定义属性值 | 是,如果目标元数据存储库中已经存在定制属性。 如果自定义属性不存在,则导入失败。 | 是 |
链接到管家 | 是的,如果目标元数据存储库中已经存在管理者。 如果管理者不存在,则导入失败。 | 是,如果目标元数据存储库中已经存在该用户或用户组。 如果用户或用户组不存在,则不会创建管家关系,但是会成功导入其他内容。 |
链接到分配的资产(例如列,作业,表) | 没有 | 是,如果资产已存在于目标元数据存储库中。 如果资产不存在,则不会创建关系,但是会成功导入其他内容。 |
引用已分配的外部资产(例如业务流程模型或Web服务) | 没有 | 是 |
注意:如果需要将业务词汇表内容从版本8.1.1之前的版本传输到较新的业务词汇表实例,则唯一可用的方法是词汇表存档的导入和导出(格式为XMI),可用于传输全部或部分内容。词汇表实例之间的词汇表数据,而无需编辑其内容。 在Business Glossary版本8.1中,如果您只想转移具有基本属性的类别和术语,则还可以使用CSV导入和导出。
使用CSV格式导入
创建业务词汇表逗号分隔值(CSV)格式是为了提供一种将基本业务词汇表数据导入元数据存储库的简便方法。 表1和2描述了可以包含在CSV文件中的类别和术语的属性。
注意:此CSV导入与Metabrokers和网桥类别和术语CSV导入(与Business Glossary的8.0版本一起发布)不同。 它们是两个独立的应用程序,它们具有不同的格式。
可从InfoSphere Information Server Web控制台内的“词汇表”选项卡访问Business Glossary CSV导入功能,如图1所示。
图1. InfoSphere Information Server Web控制台词汇表“导入CSV”页面
完成以下步骤以导入CSV文件:
- 单击词汇表选项卡。
- 点击左侧“导入和导出”部分中的导入CSV 。
- 点击浏览 。
- 找到CSV文件,然后点击导入 。
要开始创建CSV文件,请单击“ 下载示例CSV文件”链接, 如图1所示,以获取一个简单的CSV文件,您可以在其中输入测试数据。 该文件中包含一些示例类别和术语,并且包含说明,您可以输入CSV文件中的数据类型。
使用CSV模板
编写CSV文件的两种最佳做法是从上述示例文件开始,或者从其中包含一些初始数据的业务词汇表中导出CSV文件。 从样本文件或现有词汇表内容开始的关键原因是要确保文件包含所有必需的行,因为如果缺少任何这些行,导入将失败。 从导出现有内容开始的一个优点是文件将包含现有的自定义属性作为可导入属性。 您可以选择使用CSV文件导入类别和/或术语。
导入类别
如果您只想导入类别而不导入任何术语,则只需在CSV文件中具有“类别”部分,如图2所示。
图2. CSV中定义的类别,未定义术语
在图2中,显示了CSV文件中的两个类别。 文件中的第一类称为“ 业务概念” 。 它没有定义父类别,这意味着在导入时,该类别将成为顶级类别。 第二个类别称为Location ,它的类别Business Concepts定义为其父类别。 图2还包含一个术语部分,但此部分中尚未定义任何术语,这是允许的。
导入此CSV文件时,将创建两个类别:一个名为Business Concepts的顶级类别,以及一个名为Location的Business Concepts子类别。
汇入条款
如果只想导入术语而不是类别,则只需在CSV文件中包含术语部分。 您还可以在CSV中保留一个空的类别部分。
图3.在CSV中定义的术语,未定义类别
最好定义一个术语的父类别,而不要留空。 如果该术语的父类别保留为空白,则会创建其下方的术语。 但是在导入期间自动生成的类别中,类别名称将无法使用,例如Uncategorized_1273649004500
,如图4所示。
图4.没有父类别定义的术语
指定文件格式
CSV文件的文件扩展名为.csv
。 如果您的文本编辑器没有.csv扩展名选项,则可以指定.txt
,然后再编辑扩展名。 如果您的文本编辑器的文件格式类型列表中没有.csv,请键入.csv ,然后使用该扩展名保存文件。
如果您使用的是Microsoft®Excel,请确保将文件另存为CSV(逗号分隔)(* .csv),而不是其他任何CSV类型或标准.xls类型,如图5所示。
图5.另存为.csv时使用的Microsoft Excel CSV格式
指派管理员
管理员是企业主或主题专家。 可以将管理者分配给术语或类别。 请注意,导入之前,管理者需要在存储库中存在,否则导入将失败。 您可以通过在“管理者”列中键入管理者的用户名,将管理者分配给CSV文件中的类别或术语,如图6所示。
注意:管理员可以是用户或用户组。
图6.在CSV文件中为类别和术语分配管理员
用户名与管理者的名字,姓氏或用户组名不同。 该值必须是用户名的正确值,否则导入将失败。
您可以通过查看管理者来在InfoSphere Information Server Web控制台中找到用户或用户组的用户名值,如图7所示。
图7. InfoSphere Information Server Web控制台中的Stewards页面
在此控制台中,此用户名值是您需要在管理员的CSV文件中输入的值。
创建自定义属性
定制属性是您可以创建的用于扩展标准词汇表模板的类别和术语的属性,例如名称,简短描述和冗长描述。 表1列出了可用属性的完整列表。
您可以在Information Server Web控制台的InfoSphere Business Glossary管理界面中定义自定义属性,如图8所示。