gitee上的pdf转word(学习)

转载的博客地址,向原创学习:
https://gitee.com/lyc96/pdf-to-word

from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator

from pdfminer.pdfpage import PDFTextExtractionNotAllowed

from docx import Document

# 新建一个文档对象
document = Document()

# rb以二进制读模式打开本地pdf文件
fn = open(r'C:\Users\lee\Desktop\1.pdf','rb')
# 创建一个pdf文档分析器
parser = PDFParser(fn)

# 创建一个PDF文档
doc = PDFDocument(parser)

# 连接分析器 与文档对象
parser.set_document(doc)

# 创建PDf资源管理器
resource = PDFResourceManager()
# 创建一个PDF参数分析器
laparams = LAParams()
# 创建聚合器,用于读取文档的对象
device = PDFPageAggregator(resource, laparams=laparams)
# 创建解释器,对文档编码,解释成Python能够识别的格式
interpreter = PDFPageInterpreter(resource, device)
# 循环遍历列表,每次处理一页的内容
# doc.get_pages() 获取page列表

for page in PDFPage.create_pages(doc):
    # 利用解释器的process_page()方法解析读取单独页数
    interpreter.process_page(page)
    # 使用聚合器get_result()方法获取内容
    layout = device.get_result()
    # 这里layout是一个LTPage对象,里面存放着这个page解析出的各种对象
    for out in layout:
        # 判断是否含有get_text()方法,获取我们想要的文字
        if hasattr(out, "get_text"):
            content = out.get_text().replace(u'\xa0', u' ')  # 将'\xa0'替换成u' '空格,这个\xa0就是&nbps空格
            print(content)
            document.add_paragraph(
                content, style='ListBullet'  # 添加段落,样式为unordered list类型
            )
        document.save(r'C:\Users\lee\Desktop\out.doc')  # 保存这个文档
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 如果你要从 gitee 上拉取代码,可以按照以下步骤进行: 1. 打开 gitee.com 网站,登录你的账号。 2. 找到要拉取的代码仓库,点击进入。 3. 点击仓库右侧的 "Clone or download" 按钮,复制仓库的 URL。 4. 打开终端或命令提示符,输入以下命令: ``` git clone <仓库URL> ``` 5. 等待拉取完成,即可在本地得到代码仓库的副本。 ### 回答2: 要从 gitee 上拉取代码,首先需要在本地安装并配置 Git。可以从 Git 官网(https://git-scm.com/downloads)下载适合你操作系统的安装程序,然后按照安装向导进行安装。 安装完成后,打开命令行工具(如 Windows 的 Git Bash、Mac 的终端或 Linux 的命令行),进入你想要存放代码的目录。 接下来,在 gitee 上找到你需要拉取的项目,复制项目的仓库地址。一般而言,该地址以 "https://" 开头。 在命令行中输入以下命令: ``` git clone 仓库地址 ``` 将其中的 "仓库地址" 替换为你复制的 gitee 项目的地址。然后按下回车键,Git 就会自动将项目的代码克隆到当前目录。 如果之前没有在 Git 中配置过账号信息,可能需要在第一次拉取代码时输入你的 gitee 账号和密码。 克隆完成后,可以使用命令 "ls" 查看当前目录下的文件和文件夹,找到克隆下来的项目文件夹。 如果需要更新已经拉取的代码,可以进入项目文件夹,然后使用命令 "git pull",Git 将会检查是否有新的代码更新,并将其下载到本地。 总的来说,从 gitee 上拉取代码的过程需要先安装并配置好 Git,然后在命令行中使用 "git clone" 命令将项目克隆到本地,之后可以使用 "git pull" 命令进行代码的更新。 ### 回答3: 从gitee上拉取代码是指将存储在gitee上的代码仓库克隆到本地开发环境中。 首先,你需要在gitee上找到要拉取代码的仓库,并获取仓库的URL链接。可以在仓库页面的右上角找到“克隆/下载”按钮,点击按钮后会弹出一个URL链接,复制该链接。 打开你的终端或命令提示符,进入你想要存放代码的目录,然后执行以下命令: ``` git clone <仓库URL链接> ``` 在命令中将 `<仓库URL链接>` 替换为之前复制的URL链接,然后运行命令。这将会在目标目录下克隆一个与仓库相同的文件夹,并将仓库中的所有代码复制到该文件夹内。 克隆完成后,你就可以在本地的开发环境中进行代码的修改和调试。如果需要与远程仓库同步更新,可以执行以下命令: ``` git pull ``` 这将会将远程仓库中的最新代码拉取到你的本地仓库中。 在拉取代码之前,确保你已经安装了git工具,并且已经配置了正确的用户名和邮箱地址。如果没有安装git,可以去官网下载并安装;如果没有配置用户名和邮箱,可以使用以下命令进行配置: ``` git config --global user.name "你的用户名" git config --global user.email "你的邮箱地址" ``` 通过以上步骤,你就可以从gitee上拉取代码并进行本地开发了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值