获取开源医学文献图片(PubMed)制成数据集
以github源代码为基础
- 获取关键词(及相关联的近/同义词)
- 通过关键词搜索文献(key words/abstract/body)
- 获取文章编号(PMID & PMCID),导出为.csv文件
- 读取csv文件,通过url获取网络资源生成相应文献的.xml文件(bioC是共享文献数据和标注的一种格式)
(如果没有安装bioc模块)
$ pip install bioc
(如果报错:Cannot uninstall ‘docutils’. …)
$ pip install bioc --ignore-installed
$ python get_bioc.py -i .csv文件 -o 存储.xml文件的文件夹(bioc folder)
- 读取.csv文件,通过Entrez.efetch()获取相应文献的.json文件(medline文件)
$python get_medline.py -i .csv文件 -o 存储.json文件的文件夹 --email 你的email --api-key 你的api-key number
(如果你需要访问E-Utilities超过一秒三次的频率,就需要