毛刺处理—学习笔记

灰度图像处理成纯黑白(二值化)图像后,轮廓边缘经常出现毛刺。如下图所示,“工”字的上面一横中,边缘有几个突出点,下边缘有两个凹陷点,在“业”字左侧竖条中有突出点,下面一横中有凹陷点。

在这里插入图片描述
产生毛刺的原因
在扫描或拍摄所生成的原始图像中,轮廓边缘像素点的值其实是介于“白”与“黑”之间的“灰”,所以整个边缘看起来很光滑,不生硬,但变成纯黑白后,像素点非黑即白,不再有中间灰,所以总有那么几个点可能就因为值稍微差了一点,就与周围的不一样了。

解决办法

  • 用高斯模糊来消除毛刺。另外对图像进行放大也会拉出一些模糊空间,一方面也可以减轻毛刺,另一方面可以避免转成纯黑白图像后出现笔画粘连(扫描书籍图像处理)。
  • 数字图像处理中的形态学方法是把孤立点。凹陷点,然后去除或填平。

ScanTailor中就是用形态学方法是把孤立点、凹陷点,然后去除或填平。

原理

  • 总结常见的边缘毛刺形状(孤立点或凹陷点)及修正方法(去除或填平),并以字符串的形式定义成模板。
  • 用形态学中击中-击不中变换(Hit-Miss Transform),在整张图像中查找能与模板匹配的像素点,然后按照模板对象素进行去除或填充。

scanTailor中总结出来的模板共有6个,分别是:
在这里插入图片描述
在模板中共有5种符号:X表示黑点,空格表示白点,问号表示黑点白点均可,减号表示去除点,加好表示填充点。所以上表中前3个模板就表示如果在一排黑点外有孤立点,则孤立点应该去除;后面3个模板则表示如果黑点中间有凹陷,则应该进行填充。

在ScanTailor中,每个模板会在上、下、左、右4个方向分别匹配,以模板1为例,其实在内部会扩充为以下4个模板进行匹配:
在这里插入图片描述
因此,6个模板其实内部要匹配24次,在图像较大时会显得很慢,所以经常用模糊来进行平滑。

整个处理过程的核心是在图像中查找模板的所有匹配点,即需要去除、填充的点,用的是击中-击不中变换(Hit-Miss Transform)。一般都用腐蚀、膨胀等形态学基本操作的组合来实现这个变换。

相关资料

ScanTailor

ScanTailor是一个开源免费的扫描文档后期处理软件主要把DIY Book Scanner拍摄制成的图像后期加工,形成完美的PDF文档。绝大多数功能都可以自动完成,虽然还是需要手动微调和最后校对。处理一本图书的时间大致1个小时。

Adobe Acrobat

Adobe Acrobat有个不受重视但是很有用的功能,叫作Clear Scan,能够批量识别扫描文档,美化文档(包括文字/图片矢量化,纠正歪斜等),并且生成可全文索引,文件更小,而版式和扫描完全一样的PDF文件。
在这里插入图片描述

参考资料

[1] 教程十七:二值化图像去毛刺
[2] 我的书籍、文献电子化全套解决方案

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值