比OCR更强大的PPT图片一键转文档重建技术

作者:熊唯,黄飞,戈扬,腾讯 PCG 应用研究员

本文介绍了 QQ 研发中心自研的 PPT  重建技术,目前腾讯文档在进行接入工作。当前主流办公产品比如 office,wps,腾讯文档会采用 AI 技术对图片进行排版恢复还原为 doc 形式的文档。通常针对以文字偏多,格式简单的图像效果比较好。如果内容丰富,图片并茂的内容图像在转为 doc 文档时,由于图像比例,文档排版插入,对丰富背景还原度差等问题导致很多 ppt 形式的图片无法很好还原为电子文档。

目前越来越多的资源信息是以图像形式存储,然而很多用户在获取图像后需要对图片进行编辑或者电子文档形式进行存储。最主流的做法是直接进行 OCR 提取,但这种方法无法满足用户对排版的需求。当前主流办公产品比如 office,wps,腾讯文档等会采用一些技术对图片进行排版恢复还原为 doc 形式的文档,通常针对以文字偏多,格式简单的图像效果比较好,但如果内容丰富,图片并茂的 ppt 内容图像在转为 doc 文档时由于图像比例,文档排版插入限制以及文档适应背景单一而丰富背景还原度差等问题会导致很多 ppt 形式的图片无法很好还原为电子文档。

QQ 研发团队团队在前期已经推出了基于深度学习的文档重建,表格重建的技术文章。产品也已经在腾迅文档,PCQQ,手机 QQ 上线,近期我们又增加了 PPT 重建功能。小程序在搭建中,其中添加里更多子功能,比如 OCR,文档自动选框,去摩尔纹,图片扭曲恢复等。欢迎大家通过 QQ 小程序体验。

下面主要给大家介绍 PPT 的重建技术,产品流程如图 1 所示,效果图如图 2 所示:

图1 图片转PPT 产品流程
图2 图片转PPT (左:原图 右:PPT )

一、图片转 ppt 框架

项目的技术流程主要分为三大模块:

预处理:包括文档检测和矫正,图片去摩尔纹,文档扭曲恢复,文档旋转,语义分割等,主要深度学习,模型部署在 GPU。

排版分析:对各实体的恢复,以及排版处理,逻辑流程部署在 CPU。

后处理: 生成导出 PPT 文件

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值