用python整理pdf文献初尝试

初学py,尝试用程序整理下载的杂乱的pdf英文文献。

达成效果是:

复制pdf并重命名为:年份+杂志+文章标题格式

同时下载ris格式可以导入endnote进一步管理,生成一个csv表格

 

 

 

代码逻辑是:

读取pdf并提取文章中的doi号,

利用selenium控件控制Edge浏览器打开pubmed,根据doi检索文章,并提取年份、杂志和标题信息,下载ris引文至默认下载地址,

最后根据提取信息在源文件夹复制pdf文件,并重命名为特定格式。

目前存在的问题是:部分文章没有或者难以获取doi号

代码如下,欢迎交流和在此基础上修改!

以上

(我不知道为什么文章检测不通过,难以发布信息。

说我内容质量较低,于是我再补充几句废话。

还因为必须要一张图片,所以我再加一张路边拍的失焦的bug。。。)


"""
此py旨在整理pdf文献,并下载bib引文格式可以进一步导入endnote进行管理。
大概逻辑是从pdf中提取doi号,联网Pubmed搜索该文献,提取文献信息并下载bib引文,
最后在当前文件夹生成新的pdf,命名格式为:年份+期刊+标题
同时生成一个pdf_information.csv文档,用来总结已处理文献,同时储存出错形式。

注1:需要联网且有Edge浏览器,还需要安装selenium控件
注2:目前发现最大bug是,有相当一部分pdf文献中没有直接的doi号,造成无法检索,
    还有少部分会提取doi号错误,导致检索失败
    
FranklinWhite
20220524

"""

"""
输入文件夹路径,注意路径格式,不能用“\”
"""
#path = input("type your file path (Note: using "/" or "\\" instead 
  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值