初学py,尝试用程序整理下载的杂乱的pdf英文文献。
达成效果是:
复制pdf并重命名为:年份+杂志+文章标题格式
同时下载ris格式可以导入endnote进一步管理,生成一个csv表格
代码逻辑是:
读取pdf并提取文章中的doi号,
利用selenium控件控制Edge浏览器打开pubmed,根据doi检索文章,并提取年份、杂志和标题信息,下载ris引文至默认下载地址,
最后根据提取信息在源文件夹复制pdf文件,并重命名为特定格式。
目前存在的问题是:部分文章没有或者难以获取doi号
代码如下,欢迎交流和在此基础上修改!
以上
(我不知道为什么文章检测不通过,难以发布信息。
说我内容质量较低,于是我再补充几句废话。
还因为必须要一张图片,所以我再加一张路边拍的失焦的bug。。。)
"""
此py旨在整理pdf文献,并下载bib引文格式可以进一步导入endnote进行管理。
大概逻辑是从pdf中提取doi号,联网Pubmed搜索该文献,提取文献信息并下载bib引文,
最后在当前文件夹生成新的pdf,命名格式为:年份+期刊+标题
同时生成一个pdf_information.csv文档,用来总结已处理文献,同时储存出错形式。
注1:需要联网且有Edge浏览器,还需要安装selenium控件
注2:目前发现最大bug是,有相当一部分pdf文献中没有直接的doi号,造成无法检索,
还有少部分会提取doi号错误,导致检索失败
FranklinWhite
20220524
"""
"""
输入文件夹路径,注意路径格式,不能用“\”
"""
#path = input("type your file path (Note: using