基于语义分割的矸石充填捣实机构防碰撞系统_一种基于深度学习的矸石填充-CSDN博客

本文链接：https://blog.csdn.net/hm7455/article/details/119064158

本文介绍了一种基于计算机视觉的矸石充填防碰撞系统，采用语义分割技术实现捣实机构与传送带间的距离测量，有效预防碰撞事故。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对研一时候做的一个项目进行简短的总结~
背景：为某煤矿公司智能研究中心做一个智能检测：矸（gān）石充填防碰撞的检测和预警。矸石充填就是捣实机不断把传动带送过来的细碎矸石给往后捣实。以往都是矿工手动操控捣实机，由于矿工经常误操作，会把捣实机抬得过高，撞断传送带。现在使用计算机视觉的方法，借助海康威视的ip摄像头，实现一个智能的防碰撞系统，降低人力成本和撞击的概率。
总共包括：读取视频流，语义分割及图像处理，设计I/O接口，程序加密，多线程设计，程序封装
Demo：视频

在这里插入图片描述

语义分割识别模块

在讨论设计方案的时候，提出两种方案：
1.目标检测（Object Detection）：如YOLO,Faster R-CNN…
2.语义分割（Semantic Segmentation)：如AlexNet,Bisenet…
区别在于前者是物体的分类及定位，后者是像素级别的分类。根据实际需求，最终是需要计算捣实机构和传送带之间的视觉距离。目标检测的优点：计算距离的时候比较方便，只要预测是准确的，距离的计算即是上下两个bounding_box的坐标相减，但是目标检测一旦没有检测出来，一个检测物体就会”消失‘了，整个系统就失效了，即是一个非0即1的过程。语义分割的优点：像素级分割，会比目标检测的识别更加准确且细致。测距的实现，可以通过算法来进行弥补。所以最终选择的语义分割的方法。

1.神经网络的选择

基于工程有一定的实时性要求，所以网络需要尽可能的快速轻量。
通过我的实测和论文作者提供的FPS、iou等数据，bisenet是相对满足本项目的一个网络。所以最终选择该语义分割网络。实验环境：NVIDIA 2080TI+CUDA10.1
reference:https://github.com/CoinCheung/BiSeNet
paper: https://arxiv.org/abs/1808.00897
网络的运行和测试可以参考原作者的github

2.读取视频流

使用python-opencv拉流，读取实时视频通过ip地址+端口以及用户名密码等。

import cv2
# user: admin
# pwd: 12345
# main: 主码流
# ip: 192.168.1.64
# Channels: 实时数据
# 1： 通道
cap = cv2.VideoCapture("rtsp://admin:12345@192.168.1.64/main/Channels/1")
print (cap.isOpened())
while cap.isOpened():
	 success,frame = cap.read()
	 cv2.imshow("frame",frame)
	 cv2.waitKey(1)

相当于视频的输入直接从ip摄像头中读取并直接输入神经网络。

3.画轮廓+去噪

轮廓的目的：①为了后续能够锁定捣实机和传送带，为后面测距做准备②不受到其他因素产生的误检所干扰。
利用cv2.findContours()函数来查找检测物体的轮廓，需要注意的是cv2.findContours()函数接受的参数为二值图，即黑白的（不是灰度图），所以读取的图像要先转成灰度的，再转成二值图，具体操作为下面的代码（注释）。

out_vis_image = helpers.colour_code_segmentation(output_image, label_values)
img = cv2.resize(cv2.cvtColor(np.uint8(out_vis_image), cv2.COLOR_RGB2BGR), (1024, 1024),interpolation=cv2.INTER_AREA)
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)  # 转换颜色空间
ret, thresh = cv2.threshold(gray, 5, 100, 0) #检测轮廓
image, contours, hier = cv2.findContours(thresh, cv2.RETR_TREE, cv2.CHAIN_APPROX_NONE)
cv2.drawContours(img, contours, i, (0, 0, 0), cv2.FILLED)#绘制轮廓

需要注意的是：opencv2返回两个值：contours：hierarchy。opencv3会返回三个值,分别是img, countours, hierarchy，我这里使用opencv3所以会返回三个参数。contours返回的是所有轮廓的像素点坐标(x,y)。
这里还涉及到一个opencv返回轮廓的坑：一个python的np.ndarray（n维数组），假设轮廓有50个点，OpenCV返回的ndarray的维数是(50, 1, 2)，而不是我们认为的(100, 2)。所以需要特殊对数据处理一下才能利用轮廓点的坐标。在numpy的数组中，用逗号分隔的是轴的索引。举个例子，假设有如下的数组：

a = np.array([[[3,4]], [[1,2]],[[5,7]],[[3,7]],[[1,8]]])

这里的shape是 (5, 1, 2)，想要取出轮廓坐标需要 a[:,0]。
由于矿下环境复杂，捣实的过程环境很差，有煤渣覆盖和水汽等，一开始的预测效果有点差强人意，后期通过扩充数据集训练更拟合损失函数，精度有较大的提升。除此之外，借助opencv来对误检的噪点进行去除，只选中中间捣实机构的有效区域。
去噪
有了轮廓点的坐标就可以利用opencv的库函数contourArea求出轮廓的面积，，剔除小面积误检的轮廓，锁定中间区域的倒是机构和传送带，并使用高斯去噪操作，去噪之后的效果可以基本锁定倒是机构和传送带。

4.测算距离

利用轮廓处理后的坐标，由于区别于目标检测，语义分割没有规整的矩形框，所以需要进行坐标选点。
捣实机构和传送带两者，传送带如果不受到撞击是相对静止的，而捣实机构是会动态变化的，所以确定捣实机构的点坐标更加的关键。
依次在轮廓上选取四个点，并且取y坐标的最小值（相对人眼视角的最大值），将最小值(x1,y1)的向上延长，使用这个点的很坐标x得到在传动带内轮廓的对应坐标(x2,y2),然后x1-x2就可得到像素距离（需要注意的是：这里opencv的矩阵和我们所理解的横纵坐标是相反的，垂直方向是x，水平方向是y，左上角是（0，0））。
这块在后期测试的时候，遇到一个问题：在捣实机构向前推的时候，由于捣实机构上面会附带碎的矸石，所以会遮挡住传送带，这个时候是无法识别传送带的。
解决方案：一旦捣实机构的坐标小于传送带的下沿坐标，把传动带的坐标给保存下来，也就是上一时刻的传送带坐标。

输入/输出

因为需求的变化，需要同时对四个相机（总共有81个相机，81选4）下的捣实环境同时进行防碰撞检测。主程序在主目录的main.py，
为了减小程序的耦合，更好的并行运行，将输入视频流和图像处理分割成了两个子函数，分别为readframe和ca()分别有四个逻辑相同的子函数。
因为所有的处理（包括语义分割、图像处理、视频流读入、黑屏检测、程序加密）都需要在后台处理，所以前端需要留一个输入供用户选择控制的四个相机，以及检测系统需要随时输出每台相机下捣实机构与传送带的距离，输出给后面的PLC端控制。分别为in.txt，out.txt。所以主要涉及到怎么实时的修改输入输出文件。python有一个对文本的读写功能，可以满足需求。

f = open('in.txt')
urlgl = f.read().strip().split(',')

这里urlgl 设置的就是ip地址尾部的每个相机的区别。

def savetxt_compact(fname, x, fmt="%d", delimiter=','):
    with open(fname, 'w+') as fh:
        for row in x:
            line = delimiter.join("0" if value == 0 else fmt % value for value in row)
            fh.write(line + '\n')

保存输出的像素距离。

程序加密

使用的是tkinter设计的一个GUI，功能就是程序可以被指定运行指定时间，计时器到期后需要输入密码才能获得重新启动。相当于输入密码，又加了一段程序使用的时间周期。通过一个外部文件读取剩余时间，程序内部设计了一个类似于密码本的字典，外部显示的话是一个乱码，但是输入正确密码之后就会怎么指定的时间。一个数字对应一个字母，在外部显示的就是打乱的英文码。过程就类似于加密传输中的编码和解码。

dict1 = {'0': 'H', '1': '*', '2': 'q', '3': 'M', '4': '&', '5': 'd', '6': 'W', '7': 'K', '8': 'x', '9': '#'}
dict2 = {'0': 'n', '1': 'B', '2': 'c', '3': 'k', '4': 'F', '5': 'j', '6': '^', '7': 'L', '8': 's', '9': '%'}
dict3 = {'0': 'R', '1': 'r', '2': 'S', '3': '$', '4': 'Y', '5': 'Z', '6': 'A', '7': 'a', '8': 'U', '9': 'i'}

程序封装

因为企业的电脑是windows平台，且没有python和深度学习的环境，并且要求需要有可移植性，所以程序要整个封装成一个可执行文件。
使用的是外置的Pyinstaller模块，可以直接pip安装。

pip install pyinstaller

基本语法：

PyInstaller -F -w -i  xxx.ico dev.py --hidden-import=pandas._libs.tslibs.timedeltas

-F 指只生成一个exe文件，不生成其他dll文件
-w 不弹出交互窗口,如果你想程序运行的时候，与程序进行交互，则不加该参数
-i 设定程序图标，其后面的xxx.ico文件就是程序小图标
dev.py 要打包的程序，如果你不是在dev.py同一级目录下执行的打包命令，这里得写上dev.py的路径地址
–hidden-import=pandas._libs.tslibs.timedeltas 隐藏相关模块的引用

你在哪个目录下执行的命令，默认打包完成的文件或者文件夹就在该目录，需要特别注意的是如果程序是在虚拟环境下开发的，封装也需要在虚拟环境下执行，毕竟封装包括一些依赖库的封装。
py文件运行没问题，不代表你打包后的文件运行就没问题，在windows下测试时，可以使用windows下的powershell来运行，这样就不会闪退了。封装真的是一个很痛苦，很折腾的事情！！CUDA版本也需要匹配，包括一些细小的版本区别。

后记

本项目目前已经申请专利《一种基于深度学习的矸石充填捣实机构防碰撞应用方法》
请勿转载~
这个项目的github部分实现代码放在了我的个人https://github.com/hm7455/Anti-collision_Semantic-segmentation_，之前一直把项目的过程记录在本地文件里，一直学习别人的博客，现在也体验一下自己写博客的的感觉~