用python整理pdf文献初尝试

franklinwhite

已于 2022-06-16 13:31:59 修改

阅读量1k

点赞数 1

文章标签： python 开发语言

于 2022-06-16 13:25:19 首次发布

本文链接：https://blog.csdn.net/franklinwhite/article/details/125314117

版权

本文档介绍了使用Python初学整理PDF文献的过程，通过提取DOI号，利用Selenium和Edge浏览器在Pubmed上检索信息，下载RIS引文并生成CSV表格。遇到的问题是部分PDF缺少或难以获取DOI号。

摘要由CSDN通过智能技术生成

初学py，尝试用程序整理下载的杂乱的pdf英文文献。

达成效果是：

复制pdf并重命名为：年份+杂志+文章标题格式

同时下载ris格式可以导入endnote进一步管理，生成一个csv表格

代码逻辑是：

读取pdf并提取文章中的doi号，

利用selenium控件控制Edge浏览器打开pubmed，根据doi检索文章，并提取年份、杂志和标题信息，下载ris引文至默认下载地址，

最后根据提取信息在源文件夹复制pdf文件，并重命名为特定格式。

目前存在的问题是：部分文章没有或者难以获取doi号

代码如下，欢迎交流和在此基础上修改！

以上

（我不知道为什么文章检测不通过，难以发布信息。

说我内容质量较低，于是我再补充几句废话。

还因为必须要一张图片，所以我再加一张路边拍的失焦的bug。。。）


"""
此py旨在整理pdf文献，并下载bib引文格式可以进一步导入endnote进行管理。
大概逻辑是从pdf中提取doi号，联网Pubmed搜索该文献，提取文献信息并下载bib引文，
最后在当前文件夹生成新的pdf，命名格式为：年份+期刊+标题
同时生成一个pdf_information.csv文档，用来总结已处理文献，同时储存出错形式。

注1：需要联网且有Edge浏览器，还需要安装selenium控件
注2：目前发现最大bug是，有相当一部分pdf文献中没有直接的doi号，造成无法检索，
    还有少部分会提取doi号错误，导致检索失败
    
FranklinWhite
20220524

"""

"""
输入文件夹路径，注意路径格式，不能用“\”
"""
#path = input("type your file path (Note: using