QuickUMLS 项目教程
1. 项目的目录结构及介绍
QuickUMLS 项目的目录结构如下:
QuickUMLS/
├── quickumls/
│ ├── __init__.py
│ ├── quickumls.py
│ ├── utils.py
│ ├── simstring_wrapper.py
│ ├── unqlite_wrapper.py
│ └── ...
├── setup.py
├── README.md
├── LICENSE
├── requirements.txt
└── ...
目录结构介绍
quickumls/
: 包含 QuickUMLS 的核心代码文件。__init__.py
: 初始化文件,用于导入模块。quickumls.py
: QuickUMLS 的主要实现文件。utils.py
: 包含一些辅助函数和工具。simstring_wrapper.py
: 封装了 SimString 库的接口。unqlite_wrapper.py
: 封装了 UnQLite 数据库的接口。
setup.py
: 用于安装 QuickUMLS 的脚本。README.md
: 项目说明文件,包含项目的基本信息和使用指南。LICENSE
: 项目的开源许可证文件。requirements.txt
: 列出了项目依赖的 Python 包。
2. 项目的启动文件介绍
QuickUMLS 的启动文件是 quickumls.py
,位于 quickumls/
目录下。该文件包含了 QuickUMLS 的主要逻辑和功能实现。
启动文件介绍
quickumls.py
:- 该文件定义了
QuickUMLS
类,用于初始化和运行 QuickUMLS 工具。 - 提供了初始化 QuickUMLS 实例的方法,如
__init__
方法。 - 包含了处理文本、提取生物医学概念的主要逻辑。
- 该文件定义了
3. 项目的配置文件介绍
QuickUMLS 的配置主要通过代码中的参数进行设置,没有独立的配置文件。以下是一些关键的配置参数:
配置参数介绍
quickumls_fp
: QuickUMLS 数据文件的目录路径。overlapping_criteria
: 重叠标准,用于处理重叠的概念。threshold
: 相似度阈值,用于过滤匹配结果。similarity_name
: 相似度计算方法,如 "cosine" 或 "jaccard"。window
: 窗口大小,用于限制匹配的范围。accepted_semtypes
: 接受的语义类型列表。
示例代码
from quickumls import QuickUMLS
matcher = QuickUMLS(
quickumls_fp='path/to/quickumls/data',
overlapping_criteria='score',
threshold=0.7,
similarity_name='cosine',
window=5,
accepted_semtypes=['T121', 'T123']
)
以上代码展示了如何初始化一个 QuickUMLS 实例,并设置相关参数。