Paper_Tips,用python读取PDF标题,并归类

博主分享了如何使用Python的PyPDF2库来读取PDF文档的标题信息,并结合文件内容进行自动化归类,以此提高整理论文效率的故事。
摘要由CSDN通过智能技术生成

好久没更新了, 主要是懒, 以后尽量坚持定期更新吧, 一周一更, 也算是对自己的激励与要求.

背景

最近整理ICPR2018大会的论文, 发现论文名称都是数字编号, 而且都在一个文件夹里, 这看着头都大了, 想找一片感兴趣的文章要打开, 看标题, 如果不感兴趣, 还要接着重复打开, 关闭. 麻烦. 于是查资料, 学习并捣鼓些小脚本, 用于读取PDF信息和归类.

环境

python3.5.2
需要安装: PyPDF2

sudo pip install PyPDF2

读取PDF中的标题信息(复制操作)

import os
from PyPDF2 import PdfFileWriter, PdfFileReader
from shutil import copy2

src_dir = 'papers_oldDir'               #源文件目录地址
des_dir = 'papers_newDir'               #新文件目录地址
num = 0

if not os.path.exists(des_dir):		#如果没有目标文件夹,新建一个目标文件夹进行存储
    os.makedirs(des_dir)

if os.path.exists(src_dir):
    dirs =
  • 5
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值