python3 pdf 转 txt

原创 2017年06月21日 09:23:21

平时用手机看书,很多都是pdf格式的,手机阅读器没办法重新排版,看着不舒服,索性自己些个小程序把PDF转换成txt,在此记录一下,欢迎大家赐教指正

代码很简单,直接贴出来吧

from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open


def readPDF(pdfFile):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, laparams=laparams)

    process_pdf(rsrcmgr, device, pdfFile)
    device.close()

    content = retstr.getvalue()
    retstr.close()
    return content


def saveTxt(txt):
    with open("istxt.txt", "w") as f:
        f.write(txt)


txt = readPDF(open('ispdf.pdf', 'rb'))
saveTxt(txt)

使用的是python3,记得提前安装PDFminer3K。

pip install PDFminer3K

对于纯文本的转换还是不错的,如果是带有图片或者表格的PDF效果不是很理想

Python利器 PDFMiner python实现PDF转换TXT(附代码)

PDFMiner其特征有: 1、完全使用python编写。(适用于2.4或更新版本) 2、解析,分析,并转换成PDF文档。 3、PDF-1.7规范的支持。(几乎) 4、中日韩CJK语言和垂直书...
  • chen_shiqiang
  • chen_shiqiang
  • 2017年07月04日 00:21
  • 2160

用python从pdf中提取信息,转为txt或者html

主要用到了pdfminer这个库 原文地址: http://www.bkjia.com/Pythonjc/1073800.html 示例代码 # -*- coding: utf...
  • zhaohansk
  • zhaohansk
  • 2016年06月19日 10:46
  • 3687

python3 pdf 转 txt

平时用手机看书,很多都是pdf格式的,手机阅读器没办法重新排版,看着不舒服,索性自己些个小程序把PDF转换成txt,在此记录一下,欢迎大家赐教指正代码很简单,直接贴出来吧from pdfminer.p...
  • u013172664
  • u013172664
  • 2017年06月21日 09:23
  • 561

python转pdf到文本

# -*- coding: utf-8 -*- from bs4 import BeautifulSoup import requests import re from pdfminer.pdfint...
  • abcd1f2
  • abcd1f2
  • 2017年04月08日 00:42
  • 571

python 将pdf转换成txt

由于上篇中的一个模块要求是将pdf中的文本内容给读取出来,因为大部分的毕设文档都是pdf格式的,而python自带的file I/O是没法实现从pdf格式的文件中读取内容的,因此需要导入第三方的pac...
  • Tony_Wong
  • Tony_Wong
  • 2014年01月23日 10:56
  • 5401

深入Python3(PDF中文完整版)

  • 2010年03月09日 16:11
  • 4.62MB
  • 下载

python将HTML转PDF

使用python讲网页转PDF。 想学习python某个模块,但是官网并不提供PDF版本,只有在线的网页说明文档,于是想将这些网页都下载下来然后转成pdf保存。这里主要用到pdfkit包,前提是电脑...
  • suzyu12345
  • suzyu12345
  • 2016年02月28日 11:59
  • 4095

光驱控制

  • 2004年05月11日 00:00
  • 27KB
  • 下载

Python 爬取网页内容,转成PDF

将廖雪峰的学习教程转换成PDF文件,代码只适合该网站,如果需要其他网站的教程,可靠需要进行稍微的修改。# coding=utf-8 import os import re import t...
  • manjianchao
  • manjianchao
  • 2017年05月03日 13:59
  • 2167

Python读取PDF文件

Python读取PDF文件
  • guozhenqiang19921021
  • guozhenqiang19921021
  • 2017年05月09日 01:39
  • 3210
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:python3 pdf 转 txt
举报原因:
原因补充:

(最多只允许输入30个字)