最近开始学习ETL工具kettle,顺便做做笔记!
 
        关于元数据的定义,就是描述数据的数据!这个概念确实有点抽象。在网上找了集中详细点的关于BI元数据的解释如下:元数据(Metadata)是关于数据、操纵数据的进程,以及应用程序的结构、意义的描述信息,其主要目标是提供数据资源的全面指南。
 
         元数据是ETL项目组面对的一个非常重要的主题,对于整个数据仓库项目也是非常重要的一部分。
         通常来说,我们可以把元数据分为三类,分别为业务元数据(Business Metadata),技术元数据(Technical Metadata)和过程处理元数据(Process Execution Metadata)。
业务元数据,是从业务的角度对数据的描述。通常是用来给报表工具和前端用户对数据进行分析和使用提供帮助。
技术元数据,是从技术的角度对数据的描述。通常包括数据的一些属性,如数据类型、长度、或者数据概况分析后一些结果。
过程处理元数据,是ETL处理过程中的一些统计数据,通常包括有多少条记录被加载,多少条记录被拒绝接受等数据。
 
在kettle的元数据存储在资源库(repository)中,资源库保存在数据库中。下面按照不同的类别介绍。
1.集群:R_CLUSRER,,R_CLUSTER_SLAVE,R_SLAVE
据网上说kettle的集群功能有点弱。后面会对这一块进行专门的研究学习。
2.数据库:R_DATABASE,R_DATABASE_ATTRIBUTE,R_DATABASE_CONTYPE,R_DATEBASE_TYPE
R_DATABASE表中记录用户定义的数据库连接的基本信息。
R_DATABASE_ATTRIBUTE记录了用户定义的数据库的详细信息。
R_DATABASE_CONTYPE为连接数据库的方式,有NATIVE,ODBC,OCI,Plugin和JNDI五种。
R_DATEBASE_TYPE里为kettle支持的所有的数据库类型,在3.2版本中已经支持了38种,可见kettle还是很强大。
3.JOB相关: R_JOB,R_JOB_ENTRY,R_JOB_ATTRIBUTE,R_JOBENTRY_COPY,R_JOBENTRY_TYPE,
R_JOB_ATTYBUTE,R_JOB_HUP,R_JOB_NOTE
,R_JOB_HOP 是指两个数据之间的链接部分,
R_JOBENTRY_TYPE 是目前支持的操作种类
4.TRANS相关:R_TRANSFORMATION,R_TRANS_ATTRIBUTE,R_TRANS_CLUSTER,
R_TRANS_HOP,R_TRANS_NOTE,R_TRANS_PARTITION_SCHEMA,R_TRANS_SLAVE,
R_TRANS_STEP_CONDITION,R_STEP,R_STEP_ATTRIBUTE,R_STEP_DATABASE,
R_STEP_TYPE.
5.日志:R_LOG,R_LOGLEVEL
,loglevel 一共有6种,Nothing at all , Minimal loggin , Basic loggin , Detailed loggin , Debugging , RowLevel(very detailed)
6.分区:R_PARTITION,R_PARTITION_SCHEMA,
 
7权限:R_PERMISSON,R_USER