获取PDF文件的标题的脚本

背景

对于大批量的PDF文件集合,能有一个自动读取文件标题的脚本是很有用的。

方式

  1. Python版
from PyPDF2 import PdfFileReader

fin = open("test.pdf", "rb")
pdf_title = PdfFileReader(fin).getDocumentInfo().title # 标题

print(pdf_title)
fin.close()
  1. Bash版
alias get_pdf_title='python -c "from PyPDF2 import PdfFileReader; import sys; fin = open(sys.argv[1], \"rb\"); print(PdfFileReader(fin).getDocumentInfo().title.replace(\" \", \"_\")); fin.close()"'

这里把空格 替换为了下划线 _,这样可以方便后面的脚本处理。
使用方式

~/workspace >>$ get_pdf_title WACV2021/Akiva_H2O-Net_Self-Supervised_Flood_Segmentation_via_Adversarial_Domain_WACV_2021_paper.pdf
H2O-Net:_Self-Supervised_Flood_Segmentation_via_Adversarial_Domain_Adaptation_and_Label_Refinement
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值