计算机视觉实践之A4文档的边缘检测及扫描

初步思路

该实验共需三步:检测边缘;从边缘图像中找到被扫描文档的外轮廓;使用透视变换将被扫描文档变换到正常视角。

具体实现过程如下:

  1. 对图像进行预处理。将输入图像调整到指定的高度,以确保不同尺寸的图像都在后续处理的过程中具有一致性。
  2. 边缘检测。将预处理后的图像转换成灰度图像,并用高斯滤波消除噪点,使用Canny算法进行边缘检测,得到图片的边缘信息。
  3. 轮廓检测。通过对边缘图像进行轮廓检测,得到照片中文档的轮廓信息。
  4. 透视变换。对轮廓检测到的纸进行透视,将其转换为矩形,然后将纸张转换为正常视角

初步代码

import cv2 # 计算机视觉
import numpy as np
from PIL import Image # 处理图像

# 调整图像大小
def resize_image(pic, height):
    (h, w, s) = pic.shape
    scale = h/height
    image = cv2.resize(pic, (int(w/scale), height, ))
    return image

# 图像显示
def show_image(name, img):
    cv2.imshow(name, img)
    cv2.waitKey(0)
    cv2.destroyAllWindows()

#对四个坐标点进行排序,便于定义矩形
def point_sorter(pts):
    # 一共四个坐标点,创建一个坐标点都是零的二维点值
    rect = np.zeros((4, 2), dtype="float32")
    # 计算左上,右下
    s = pts.sum(axis=1)
    rect[0] = pts[np.argmin(s)]
    rect[2] = pts[np.argmax(s)]
    # 计算右上和左下
    diff = np.diff(pts, axis=1)
    rect[1] = pts[np.argmin(diff)]
    rect[3] = pts[np.argmax(diff)]
    return rect

# 透视变换
def Perspective_transformation(image, pts):
    # 获取坐标点
    rect = point_sorter(pts)
    (tl, tr, br, bl) = rect
    # 计算输入的w和h值
    widthA = np.sqrt(((br[0]-bl[0])**2)+((br[1]-br[1])**2))
    widthB = np.sqrt(((tr[0] - tl[0]) ** 2) + ((tr[1] - tr[1]) ** 2))
    maxWidth = max(int(widthA), int(widthB))
    heightA = np.sqrt(((tr[0]-br[0])**2)+((tr[1]-br[1])**2))
    heightB = np.sqrt(((tl[0] - bl[0]) ** 2) + ((tl[1] - bl[1]) ** 2))
    maxHeight = max(int(heightA), int(heightB))
    # 变换后对应坐标位置
    dst = np.array([
        [0, 0],
        [maxWidth-1, 0],
        [maxWidth-1, maxHeight-1],
        [0, maxHeight-1]], dtype="float32")
    # 计算变换矩阵
    M = cv2.getPerspectiveTransform(rect, dst)
    # 将变换矩阵M带入函数warpPerspective,还有输入坐标计算出最大的宽和高
    warped = cv2.warpPerspective(image, M, (maxWidth, maxHeight))
    return warped


if __name__ == '__main__':
    #----------------读入图像并重置大小------------------#
    image = cv2.imread(r"input.jpg")
    ratio = image.shape[0]/500.0
    # 创建副本
    ini_image = image.copy()
    # resize_image大小
    image = resize_image(ini_image, 500)

    #------------------1.边缘检测----------------------#
    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) # 转灰度图像
    gray = cv2.GaussianBlur(gray, (3, 3), 0)  # 高斯滤波,去噪音点
    edge = cv2.Canny(gray, 30, 180)  # Canny边缘检测
    # 显示预处理结果
    print('1.完成边缘检测!')
    show_image('edge', edge)

    #------------------2.轮廓检测----------------------#
    edges, hierarchy = cv2.findContours(edge.copy(), cv2.RETR_LIST, cv2.CHAIN_APPROX_SIMPLE) # 获取轮廓
    edges = sorted(edges, key=cv2.contourArea, reverse=True)[:5] # 按面积排序取前五个
    real_edge = None
    for c in edges: # 遍历轮廓
        peri = cv2.arcLength(c, True) # 计算封闭的轮廓周长
        # 轮廓近似0.02*peri(原始轮廓到近似轮廓的最大距离)
        approx = cv2.approxPolyDP(c, 0.02*peri, True)
        if len(approx) == 4: # 如果检测到矩形的四个角点
            real_edge = approx
            break
    # 显示结果
    print('2.已成功获取轮廓!')
    cv2.drawContours(image, [real_edge], -1, (0, 255, 0), 2)
    show_image('image', image)
    new_h = real_edge.reshape(4, 2)*ratio

    #---------------------3.透视变换-----------------------------#
    warped = Perspective_transformation(ini_image, real_edge.reshape(4, 2)*ratio)
    warped = cv2.cvtColor(warped, cv2.COLOR_BGR2GRAY) # 转灰度图像
    ref = cv2.threshold(warped, 160, 255, cv2.THRESH_BINARY)[1] # 二值处理
    cv2.imwrite('output.png', ref) # 生成扫描结果图像
    print("3.已完成透视变换!请查看output.png文件")

发现问题

       在光线良好且图片清晰度高的情况下,可扫描出相对效果较好的图片,但是,一旦光线较差就会出现如下问题:

原图:

扫描后的图片:

原因:

图片光线过暗且有大部分图片处于阴影区域,导致在文档扫描时有影子的部分被全部误判为墨汁的黑色。

解决方案:

首先应用透视变换来获取变换后的图像。然后,将该图像转换为灰度图像并使用cv2.medianBlur 函数减少椒盐噪声(影子在图像上产生的)。之后,应用 cv2.GaussianBlur 函数平滑图像进一步减少影子的影响。最后,使用 cv2.adaptiveThreshold 函数进行自适应阈值化,让图像亮度不均匀的情况下更好地进行二值化。

进一步改进

改进后的透视变化代码为:

warped = Perspective_transformation(ini_image, real_edge.reshape(4, 2)*ratio)    
    # 转换为灰度图像  
    gray = cv2.cvtColor(warped, cv2.COLOR_BGR2GRAY)  
    # 应用中值滤波以减少椒盐噪声(可能由影子产生)  
    gray_median = cv2.medianBlur(gray, 5)  
    # 应用高斯滤波以平滑图像并减少影子的影响  
    blurred = cv2.GaussianBlur(gray_median, (5, 5), 0)  
    # 使用自适应阈值化进行二值化处理,以便在亮度不均匀的情况下更好地工作  
    ref = cv2.adaptiveThreshold(blurred, 255, cv2.ADAPTIVE_THRESH_MEAN_C, cv2.THRESH_BINARY, 11, 2)  
    # 保存处理后的图像  
    cv2.imwrite('output.png', ref)  
    print("3.已完成透视变换和影子消除! 请查看output.png文件")

改进后的效果图:

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值