![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文档页面分割
huitailangyz
这个作者很懒,什么都没留下…
展开
-
【论文阅读】PageNet:Page Boundary Extraction in Historical Handwritten Documents
论文地址:https://arxiv.org/abs/1709.01618 【概要】当将一个文档电子化成一张图像,常见的方法是包括一个周围的边界区域来视觉上显示整个文档在图像中的位置。但是,在自动化处理前,这个边界需要被移除。在我们的工作中,我们展示一个基于深度学习的系统PageNet,它可以确定在图像中的主要页面区域,以便从文本和非文本边界噪声中分割出内容。在 PageNet中,一个...翻译 2018-07-27 21:52:20 · 860 阅读 · 0 评论 -
【论文阅读】Learning to Extract Semantic Structure from Documents Using Multimodal Fully Convolutional Ne
【概要】 我们展示了一种端到端的、多模式的FCN网络来从文档图像中抽取语义结构。我们把文档语义结构抽取看做是一个像素级别的分割任务,并且提出了一种不仅仅像传统的页面分割任务那样基于他们的视觉外观,而且基于潜在的文本内容的统一模型。进一步的,我们提出了一个有效合成文档生成过程,用来为我们的网络生成预训练数据。一旦网络在大量合成文档上训练过以后,我们在未标注的真实文档上用半监督的方法精确调整...翻译 2018-08-13 10:21:29 · 3344 阅读 · 6 评论