入门机器视觉的正确打开方式——徒手撸一个python+opencv实现的机器视觉简易调试工具（上）

机智新语

已于 2024-06-27 14:04:55 修改

阅读量3.1k

点赞数 20

分类专栏：机器视觉工具集文章标签： python opencv 开发语言

于 2024-06-17 10:30:52 首次发布

未经同意，不得转载

本文链接：https://blog.csdn.net/kanbide/article/details/139723662

版权

机器视觉工具集专栏收录该内容

21 篇文章

订阅专栏

1.引言

在当今AI时代，关于视觉识别似乎已被深度学习所统治，而深度学习是个黑箱，无法看到里面运行的机制，并且它是一个疯狂的吞大数据的野兽，且运行需要极高的CPU或GPU的配置，对于初学者，尤其是手上没有高配置的机器的人，进入视觉识别设置了一道高高的门栏。
机器视觉作为人工智能领域的一个重要分支，正逐渐渗透到工业自动化、智能监控、医疗诊断、自动驾驶等众多领域。机器视觉技术赋予了机器“看”的能力，使得机器能够感知环境、理解图像内容，并做出相应的决策。
对于初学者来说，入门机器视觉可能会感到无从下手，市面上虽然有许多成熟的机器视觉软件，但它们往往价格昂贵，且功能复杂，不够灵活。幸运的是，Python语言以其简洁易懂的特性，结合OpenCV这一强大的计算机视觉库，为初学者提供了一个低成本、高效率的学习平台。
在这里插入图片描述

本文将引导读者通过编写一个简易的机器视觉调试工具，来深入理解机器视觉的基本概念和操作流程。我们将从零开始，一步步构建一个基于Python和OpenCV的应用程序，不仅能够帮助初学者快速入门，还能作为进一步探索机器视觉领域的知识储备。
效果如下：
在这里插入图片描述

2.框架思路

如上所示，我们可以把opencv这个极开源世界优秀视觉处理的知识库，从抽象的代码，变成一条条流程化的知识流，并且利用将超级参数的调整可视化，即视化实现对机器视觉处理模块或算法的快速直观理解，极端时间内建立对算法的“手感”。便于在实际问题中，快速思考获得解决方案。
视觉识别的过程就是一个图像信息的流处理过程：
在这里插入图片描述
基于以上思考，可以把我们的调试工具设计成一个类似流水线一样的解读执行过程，就是我们先根据场景特点确定上下游的处理模块，把它们做成一个草图，然后我们的主程序负责把它按流程图执行，并且可以随时打开流水线的某个处理盒子，对参数进行方便的调节。总得来说这个工具应该是这样的：
在这里插入图片描述

3.环境搭建

python的环境搭建是个头疼的过程，主要障碍是版本的选择，和网速。只要确定好这两者，那么也是一两行指令的事情。裸跑python的基本流程如下（有IDE工具跳过）：
在这里插入图片描述

以上流程用到的指令有：

#windows
#更换成国内源
pip config set global index-url https://pypi.tuna.tsinghua.edu.cn/simple
#创建虚拟环境：
python -m venv myenv
#进入虚拟环境
myenv\Scripts\activate
#进入项目路径：
cd projectdir
#安装依赖：
pip install -r requirements.txt

#指令安装
sudo apt-get update 
sudo apt-get install python3
#更换成国内源
pip config set global index-url https://pypi.tuna.tsinghua.edu.cn/simple
或者(pycharm的指令)
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
#创建虚拟环境：
python3 -m venv myenv
#进入虚拟环境
source myenv/bin/activate
#进入项目路径：
cd projectdir
#安装依赖：
pip install -r requirements.txt

本项目用到的库：

matplotlib==3.8.4
networkx==2.6.3
numpy==1.22.4
opencv_python==4.7.0.68
pillow==10.3.0
PySimpleGUI==4.60.5
scikit_learn==1.5.0

4.图像处理流程化的实现

自然而然我们想到了一些优秀的数据结构可以实现我们的思路，比如xml、json。在python中我们就自然而然用到了字典这种格式：

{  
            "@img_source":["图像源1"],
            "@folder":'./image',           
            "图像源1":{
                    "funname":"image_source",
                    "path":["./image/mask.png"],
                    "output":[],
                    "result":[],
                    "father":["root"],
                    "son":["颜色选择1","腐蚀操作1","固定阈值分割1","canny边缘1","颜色聚类1","图像旋转1"],   
                    },
 
            "图像旋转1":{
                    "funname":"imgrotaionTH",
                    "output":[],
                    "result":[],
                    "args":[],
                    "father":["图像源1"],
                    "son":[],      
                    },
            "canny边缘1":{
                    "funname":"CannyThresholdTH",
                    "output":[],
                    "result":[],
                    "args":[],
                    "father":["图像源1"],
                    "son":["形态学1"],                    
                    },
            "颜色聚类1":{
                    "funname":"KmeansThresholdTH",
                    "output":[],
                    "result":[],
                    "args":[],
                    "father":["图像源1"],
                    "son":[],                    
                    },
            "形态学1":{
                    "funname":"morphologyTH",
                    "output":[],
                    "result":[],
                    "args":[],
                    "father":["canny边缘1"],
                    "son":["查找轮廓11"],                    
                    },
            "查找轮廓11":{
                    "funname":"findContoursTH",
                    "output":[],
                    "result":[],
                    "args":[],
                    "father":["形态学1"],
                    "son":[]                    
                    },           
            
            
            "颜色选择1":{
                    "funname":"color_filterTH",
                    "output":[],
                    "result":[],
                    "args":[],
                    "father":["图像源1"],
                    "son":["阈值分割111"],                    
                    },
            "阈值分割111":{
                    "funname":"thresholdTH",
                    "output":[],
                    "result":[],
                    "args":[],
                    "father":["颜色选择1"],
                    "son":["形态学111"],
                    },
             "形态学111":{
                    "funname":"morphologyTH",
                    "output":[],
                    "result":[],
                    "args":[],
                    "father":["阈值分割111"],
                    "son":["查找轮廓111"],                    
                    },
             "查找轮廓111":{
                    "funname":"findContoursTH",
                    "output":[],
                    "result":[],
                    "args":[],
                    "father":["形态学111"],
                    "son":[]                    
                    },        
                    

            "腐蚀操作1":{
                    "funname":"erodeTH",
                    "output":[],
                    "result":[],
                    "args":[],
                    "father":["图像源1"],
                    "son":[]   
                    
                    },
            "固定阈值分割1":{
                    "funname":"thresholdTH",
                    "output":[],
                    "result":[],
                    "args":[],
                    "father":["图像源1"],
                    "son":["形态学11"]   
                    
                    },
            "形态学11":{
                    "funname":"morphologyTH",
                    "output":[],
                    "result":[],
                    "args":[],
                    "father":["固定阈值分割1"],
                    "son":["查找轮廓1"],                    
                    },
 
            "自适阈值分割1":{
                    "funname":"adaptiveThresholdTH",
                    "output":[],
                    "result":[],
                    "args":[],
                    "father":["图像源1"],
                    "son":[]   
                    
                    },
            
            "查找轮廓1":{
                    "funname":"findContoursTH",
                    "output":[],
                    "result":[],
                    "args":[],
                    "father":["形态学11"],
                    "son":[]                    
                    },            

            }

如上通过这种简洁的数据格式，我们一口气把6条图像处理流水线給绘制了出来：
在这里插入图片描述
根据这样的思路，我们可以根据需要绘制无数条！！！

5.流水线上的算法块

一条流水线由一个一个处理块组成，处理块对于初学者来说无需自己从0开始编代码，opencv已经几乎集成了所有视觉处理算法块，并且是开源的，直接拿过来用就可以，而这块达到会使用的一个衡量指标是，对算法块参数的理解，难点也在这里。而理解算法块参数的最快方法不是去阅读计算机视觉原理，而是调试，就像想学会游泳最快的方法是跳进水里亲自感觉。后面如果再想深入，那么花时间去啃计算机视觉原理也不迟。
在这里插入图片描述
如上所示，一个查找颜色的模块，如果用opencv提供的算法块直接用代码形式去使用，那么要找到一中需要的颜色，在纯代码中，相信你会在确定模式、参数的设置中迷失，直至怀疑人生。但是如果将算法块中的参数暴露，并采用滑块进行随意调节，相信一个5岁的小孩也马上能掌握这个算法的参数调节和模式选择。
需要指出的是，在一个简单的机器视觉任务中，颜色查找这种古老的算法，仍然不失为一种性价比高的解决方案，还要什么AI、和GPU呢？

5.1 算法块的可视化

这里所谓的可视化,就是把算法模块套上一个GUI的皮囊，把参数暴露出来，供人们肆意玩弄。直到摸清它的脾气为止。这里我们用了简单办法，例如一个图像的旋转算法模块：

def imgrotaion(inputimg,center,angle,ratio=1,dsize=None,flags=None,borderMode=cv2.BORDER_REFLECT,borderValue=(0,0,0)):
    """
    getRotationMatrix2D中：
    center-旋转中心(x,y)
    angle-旋转角度
    ratio-缩放比例    
    
    warpAffine其中：
    src - 输入图像。
    M - 变换矩阵。
    dsize - 输出图像的大小。
    flags - 插值方法的组合（int 类型！）
    默认为 flags=cv2.INTER_LINEAR，表示线性插值，此外还有：cv2.INTER_NEAREST（最近邻插值）   cv2.INTER_AREA （区域插值）  cv2.INTER_CUBIC（三次样条插值）    cv2.INTER_LANCZOS4（Lanczos插值）
    borderMode - 边界像素模式（int 类型！）
    
    borderValue - （重点！）边界填充值; 默认情况下，它为0.    
    """
    if len(inputimg.shape)==3:        
        if dsize==None:
            h= inputimg.shape[0]
            w= inputimg.shape[1]
            dsize=(w,h)
        if flags==None:
            flags=cv2.INTER_LINEAR
        M = cv2.getRotationMatrix2D(center, angle, ratio)
        dst=cv2.warpAffine(inputimg,M,dsize,flags=flags,borderMode=borderMode,borderValue=borderValue)
        return True,dst
    else:
        print("wrong image shape")
        return False,inputimg 

def imgrotaionTH(inputimg,mblock):
    """
    图像旋转
    """
    x=inputimg.shape[1]
    y=inputimg.shape[0]
    layout= [ 
        [sg.Text('刷新率',size=(15, 1)),sg.Slider((1, 10),1 , 1, orientation='h', size=(10, 15), key='-speed-'),sg.Button('刷新')],
        [sg.Button('Exit')],
         [sg.Text('旋转角度:',size=(5, 1)),sg.Slider((1, 360),90, 1, orientation='h', size=(10, 15), key='-angle-')
         ],
         [sg.Text('缩放比例:',size=(5, 1)),sg.Slider((0.1, 10),1, 0.1, orientation='h', size=(10, 15), key='-ratio-')],
         [sg.Text('旋转中心:(x,y)',size=(5, 1)),
          sg.InputText('('+str(int(x/2))+","+str(int(y/2))+")",key='-center-',size=(10, 1))],
         [sg.Text('填充颜色',size=(15, 1)),
          sg.InputText('(0,0,0)',key='-bordcolor-',size=(10, 1))],             
         [sg.Image(filename='', key='-IMAGE-')],            
        ]
    win = sg.Window('图像旋转TH', layout,resizable=True,disable_close=True)
    def flash(win): 
        win_active=True
        event=True
        maxtime=1
        tita=0
        while win_active:
            #...略
            
            if event is None or event == 'Exit':
                win.close()
                win_active = False                                        
                break 
    flash(win)