2021.3.25项目阶段报告

最新推荐文章于 2021-05-22 10:33:58 发布

hustlearner

最新推荐文章于 2021-05-22 10:33:58 发布

阅读量194

点赞数

分类专栏：代码检错与查重文章标签： Python 文档提取图片识别图像二值化 Tesseract

本文链接：https://blog.csdn.net/Mr__666/article/details/115217309

版权

代码检错与查重专栏收录该内容

35 篇文章 0 订阅

订阅专栏

本周进度

整体思路

思路发生了变化。之前是采用利用python和pyqt实现前端界面，java以及tika，tesseract等jar包完成后端逻辑，再打包成jar包导入qt的想法；现在认为将jar包导入可以说是多此一举，浪费空间且不便调试，其实可以直接用python解决问题。

项目成果

现在可以选取文件，提取文档和图片中的文字。
提取算法：

import docx
from docx import Document

from PIL import Image
import pytesseract

def for_docx(in_path, out_path):

    f = open(out_path, 'w', encoding='utf-8')
    document = Document(in_path)

    # 段落
    for paragraph in document.paragraphs:
        f.write(paragraph.text)
    # 表格
    tables = document.tables  # 获取文件中的表格集
    table = tables[0]  # 获取文件中的第一个表格
    for i in range(0, len(table.rows)):  # 从表格第一行开始循环读取表格数据
        result = f'{(table.cell(i, 0).text):<5}' + "" + f'{(table.cell(i, 1).text):<5}' + "" + f'{(table.cell(i, 2).text):<5}'
        # cell(i,0)表示第(i+1)行第1列数据,以此类推
        f.write(result)
    f.close()

def for_picture(in_path,out_path):
    f = open(out_path, 'w', encoding='utf-8')
    result = pytesseract.image_to_string(Image.open(in_path))
    f.write(result)
    f.close()