背景
对于大批量的PDF文件集合,能有一个自动读取文件标题的脚本是很有用的。
方式
- Python版
from PyPDF2 import PdfFileReader
fin = open("test.pdf", "rb")
pdf_title = PdfFileReader(fin).getDocumentInfo().title # 标题
print(pdf_title)
fin.close()
- Bash版
alias get_pdf_title='python -c "from PyPDF2 import PdfFileReader; import sys; fin = open(sys.argv[1], \"rb\"); print(PdfFileReader(fin).getDocumentInfo().title.replace(\" \", \"_\")); fin.close()"'
这里把空格
替换为了下划线
_
,这样可以方便后面的脚本处理。
使用方式:~/workspace >>$ get_pdf_title WACV2021/Akiva_H2O-Net_Self-Supervised_Flood_Segmentation_via_Adversarial_Domain_WACV_2021_paper.pdf H2O-Net:_Self-Supervised_Flood_Segmentation_via_Adversarial_Domain_Adaptation_and_Label_Refinement