Paper_Tips,用python读取PDF标题,并归类

royal_琦

于 2018-09-05 12:03:16 发布

阅读量7.2k

点赞数 5

分类专栏： python 文章标签： Tips

本文链接：https://blog.csdn.net/weixin_41090039/article/details/82421312

版权

博主分享了如何使用Python的PyPDF2库来读取PDF文档的标题信息，并结合文件内容进行自动化归类，以此提高整理论文效率的故事。

摘要由CSDN通过智能技术生成

好久没更新了, 主要是懒, 以后尽量坚持定期更新吧, 一周一更, 也算是对自己的激励与要求.

背景

最近整理ICPR2018大会的论文, 发现论文名称都是数字编号, 而且都在一个文件夹里, 这看着头都大了, 想找一片感兴趣的文章要打开, 看标题, 如果不感兴趣, 还要接着重复打开, 关闭. 麻烦. 于是查资料, 学习并捣鼓些小脚本, 用于读取PDF信息和归类.

环境

python3.5.2
需要安装: PyPDF2

sudo pip install PyPDF2

读取PDF中的标题信息(复制操作)

import os
from PyPDF2 import PdfFileWriter, PdfFileReader
from shutil import copy2

src_dir = 'papers_oldDir'               #源文件目录地址
des_dir = 'papers_newDir'               #新文件目录地址
num = 0

if not os.path.exists(des_dir):		#如果没有目标文件夹,新建一个目标文件夹进行存储
    os.makedirs(des_dir)

if os.path.exists(src_dir):
    dirs =

最低0.47元/天解锁文章

royal_琦

关注

5
点赞
踩
21

收藏

觉得还不错? 一键收藏
3
评论
Paper_Tips,用python读取PDF标题,并归类

好久没更新了, 主要是懒, 以后尽量坚持定期更新吧, 一周一更, 也算是对自己的激励与要求. 背景最近整理ICPR2018大会的论文, 发现论文名称都是数字编号, 而且都在一个文件夹里, 这看着头都大了, 想找一片感兴趣的文章要打开, 看标题, 如果不感兴趣, 还要接着重复打开, 关闭. 麻烦. 于是查资料, 学习并捣鼓些小脚本, 用于读取PDF信息和归类.环境python3.5....
复制链接

扫一扫

专栏目录