OHDSI ETL 工具使用 WhiteRabbit + Rabbit in A Hat + Usagi

最新推荐文章于 2024-10-18 17:32:51 发布

mumumumufeng

最新推荐文章于 2024-10-18 17:32:51 发布

阅读量1.7k

点赞数 1

文章标签： etl linux 数据仓库

本文链接：https://blog.csdn.net/mumumumufeng/article/details/121270809

版权

ETL工具

WhiteRabbit和RabbitinAHat 是帮助准备纵向医疗保健数据库 ETL 到OMOP CDM 的软件工具 . WhiteRabbit 会扫描您的数据并创建一份报告，其中包含开始设计 ETL 所需的所有信息。WhiteRabbit 的主要功能是对源数据进行扫描，提供有关字段中出现的表、字段和值的详细信息

Usagi 是一种帮助手动创建代码映射过程的工具。它可以根据代码描述的文本相似性进行建议的映射。

WhiteRabbit

White Rabbit 和 Rabbit in a Hat 是纯 Java 应用程序。这两个应用程序都使用Apache 的 POI Java 库来读取和写入 Word 和 Excel 文件。White Rabbit使用 JDBC 连接到各自的数据库。

系统要求

需要 Java 1.8 或更高版本，并具有对要扫描的数据库的读取权限。

入门

WhiteRabbit

https://github.com/OHDSI/WhiteRabbit

下载WhiteRabbit*.zip
解压下载
在 Windows上双击bin/whiteRabbit.bat启动 White Rabbit，bin/whiteRabbit在 macOS 和 Linux 上。

扫描配置相关信息

选中“Scan field values”框告诉 WhiteRabbit 您想调查为扫描选择的表中的原始数据项（即，如果您选择表 A，WhiteRabbit 将检查表 A 中每一列的内容）。
- “Min cell count”是扫描字段值时的一个选项。默认情况下，这设置为 5，这意味着源数据中出现次数少于 5 次的值将不会出现在报表中。

“Rows per table”是扫描字段值时的一个选项。默认情况下，WhiteRabbit 会在表中随机抽取 100,000 行。还有其他选项可以查看表中的 500,000、100 万或所有行。

“Max distinct values”是扫描字段值时的一个选项。默认情况下，该值设置为 1,000，这意味着扫描报告中将显示每个字段最多 1,000 个不同的值。此选项可以设置为 100、1,000 或 10,000 个不同的值。

取消选中“Scan field values”会告诉 WhiteRabbit 不查看或报告任何原始数据项。

选中“Numeric stats”框将包括数字统计。请参阅Numeric stats部分。

Numeric stats

如果选中Numeric stats选项，则会为所有整数、实数和日期数据类型计算一组统计信息。以下统计信息添加到字段概览表（列 KQ）：

列 EJ 未显示

K 列：平均值

L 列：标准偏差（采样）

M列：最小值

N/O/P 列：四分位数（采样）

Q列：最大值

选择扫描Numeric stats选项时，可以设置参数“Numeric stats reservoir size”。这定义了为计算数值统计而存储的值的数量。这些值将从扫描报告中的字段值中随机采样。如果值的数量小于设置的储层大小，则标准差和三个四分位数边界是准确的总体统计数据。否则，统计数据是基于代表性样本的近似值。平均值、最小值和最大值始终是真实的人口统计数据。对于日期，日期的标准偏差以天为单位。其他日期统计信息将转换为日期表示形式。