比OCR更强大的PPT图片一键转文档重建技术

作者:熊唯,黄飞,戈扬,腾讯 PCG 应用研究员

本文介绍了 QQ 研发中心自研的 PPT  重建技术,目前腾讯文档在进行接入工作。当前主流办公产品比如 office,wps,腾讯文档会采用 AI 技术对图片进行排版恢复还原为 doc 形式的文档。通常针对以文字偏多,格式简单的图像效果比较好。如果内容丰富,图片并茂的内容图像在转为 doc 文档时,由于图像比例,文档排版插入,对丰富背景还原度差等问题导致很多 ppt 形式的图片无法很好还原为电子文档。

目前越来越多的资源信息是以图像形式存储,然而很多用户在获取图像后需要对图片进行编辑或者电子文档形式进行存储。最主流的做法是直接进行 OCR 提取,但这种方法无法满足用户对排版的需求。当前主流办公产品比如 office,wps,腾讯文档等会采用一些技术对图片进行排版恢复还原为 doc 形式的文档,通常针对以文字偏多,格式简单的图像效果比较好,但如果内容丰富,图片并茂的 ppt 内容图像在转为 doc 文档时由于图像比例,文档排版插入限制以及文档适应背景单一而丰富背景还原度差等问题会导致很多 ppt 形式的图片无法很好还原为电子文档。

QQ 研发团队团队在前期已经推出了基于深度学习的文档重建,表格重建的技术文章。产品也已经在腾迅文档,PCQQ,手机 QQ 上线,近期我们又增加了 PPT 重建功能。小程序在搭建中,其中添加里更多子功能,比如 OCR,文档自动选框,去摩尔纹,图片扭曲恢复等。欢迎大家通过 QQ 小程序体验。

下面主要给大家介绍 PPT 的重建技术,产品流程如图 1 所示,效果图如图 2 所示:

图1 图片转PPT 产品流程
图2 图片转PPT (左:原图 右:PPT )

一、图片转 ppt 框架

项目的技术流程主要分为三大模块:

预处理:包括文档检测和矫正,图片去摩尔纹,文档扭曲恢复,文档旋转,语义分割等,主要深度学习,模型部署在 GPU。

排版分析:对各实体的恢复,以及排版处理,逻辑流程部署在 CPU。

后处理: 生成导出 PPT 文件

图3 项目技术模块

下面给大家一一介绍我们主要模块用到的技术细节。

二、AI 模块

2.1 自动框选
<
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期新这些源码资源,以适应各平台技术的最新发展和市场需求。
要将多张图片批量识别为文字并存入Word文档中,可以使用OCR(Optical Character Recognition,光学字符识别)技术和一些OCR软件。 以下是一些常用的OCR软件: 1. ABBYY FineReader:这是一款功能强大OCR软件,可以将扫描的文档图片换为可编辑的文本。它支持多种文件格式,包括PDF、Word、Excel等。 2. Adobe Acrobat Pro DC:这是一款付费的软件,可以将PDF换为多种格式,包括Word文档。它支持识别文本,将其换为可编辑的Word文本。 3. Tesseract OCR:这是一款开源的OCR引擎,可以将图片换为可编辑的文本。它支持多种语言,并且可以通过编程接口进行集成。 以下是一个基于Python编写的示例代码,可以批量识别图片并将其保存为Word文档: ```python import pytesseract from PIL import Image import docx # 读取图片并识别为文本 def read_image(image_path): text = pytesseract.image_to_string(Image.open(image_path), lang='chi_sim') return text # 将文本保存到Word文档中 def save_to_word(text, file_path): doc = docx.Document() doc.add_paragraph(text) doc.save(file_path) # 批量读取图片并保存为Word文档 def batch_convert(image_dir, output_dir): for i, filename in enumerate(os.listdir(image_dir)): if filename.endswith('.jpg') or filename.endswith('.png'): image_path = os.path.join(image_dir, filename) text = read_image(image_path) output_path = os.path.join(output_dir, f'{i}.docx') save_to_word(text, output_path) # 示例:将图片目录中的所有图片换为Word文档 batch_convert('image_dir', 'output_dir') ``` 这段代码使用了Pytesseract库来识别图片中的文本,使用了Python-docx库来保存文本到Word文档中。你可以根据自己的需求修改代码,适应不同的图片文档格式。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值