一、什么是物体测量?
所谓的物体测量就是算法通过计算后自动的输出图像中各个物体的大小,具体如下图所示:
我们将该图输入到设计的算法中,算法通过计算依从从左往右输出图片中各个物体的大小并输出相应的BB,这个任务在现实场景中具有很多的应用,下面就来看看如何来实现这个功能了吧!
二、如何实现物体测量?
步骤1-加载待测试的图片并进行预处理操作,具体包括:图像灰度化、高斯滤波、边缘检测、膨胀和腐蚀、寻找轮廓线等;
步骤2-对获取的物体轮廓进行遍历,遍历每一个物体轮廓,输出相应的BB;
步骤3-计算各个轮廓的中心点坐标,并绘制结果;
步骤4-设置参考物,计算中心点集合之间的欧氏距离,将欧氏距离除以物体的像素值即获得物体的实际尺寸大小,并显示结果。
三、算法实现细节
在进行物体测量时,为了确定图像中物体的实际大小,我们首先需要设置一个参考物体,而这个参考物体通常需要满足以下的属性:
- 我们应该在一个可测量的单位(如毫米、英寸等)内,知道这个物体的尺寸(根据宽度或高度),即我们需要知道参考物体的尺寸。
- 我们应该能够在图像中轻松地找到这个参考物体,要么基于物体的位置(如参考物体总是被放置在图像的左上角)或通过表象(像一个独特的颜色或形状,独特且不同于其他物体的物体)。在任何一种情况下,我们的参考都应该以某种方式具有惟一的可识别性,即我们应该能够很容易的找到我们 的参考物体。
如上图所示,我们将使用 一个两角五分的美元硬币作为参考物体,并在所有示例中确保它始终是图像中最左的物体;接着我们就可以从左到右的对物体轮廓进行排序操作,获取到最左边的轮廓,并使用它来定义我们的度量指标-【像素/度量】比率,它用来测量每一个给定目标的像素个数。,这里使用pixels_per_metric来定义它,具体的定义如下所示:
pixels_per_metric = object_width / know_width
其中object_width 表示参考目标的宽度(以像素为单位),即参考目标在图像中占据了多少个像素;而know_width表示参考物体的宽度,即参考目标的实际大小,一个两角五分的美元硬币是 0.955 英寸,假设我们的object_width为150像素宽的话,则pixels_per_metric = 150px / 0.955in = 157px,即在我们的待测图像中,每 0.955 英寸大约有 157 个像素。利用这个比率,我们可以计算图像中物体的大小。 即在实际的测量中我们可以根据像素反推出物体的大小。
四、算法代码实现
# coding=utf-8
# 导入一些后续需要使用到的python包
# 可能需要 pip install imutils
from scipy.spatial import distance as dist
from imutils import perspective
from imutils import contours
import numpy as np
import argparse
import imutils
import cv2
# 定义一个中点函数,后面会用到
def midpoint(ptA, ptB):
return ((ptA[0] + ptB[0]) * 0.5, (ptA[1] + ptB[1]) * 0.5)
# 设置一些需要改变的参数
ap = argparse.ArgumentParser()
ap.add_argument("-i", "--image", required=True,
help="path to the input image")
ap.add_argument("-w", "--width", type=float, required=True,
help="width of the left-most object in the image (in inches)")
args = vars(ap.parse_args())
# 读取输入图片
image = cv2.imread(args["image"])
# 输入图片灰度化
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
# 对灰度图片执行高斯滤波
gray = cv2.GaussianBlur(gray, (7, 7), 0)
# 对滤波结果做边缘检测获取目标
edged = cv2.Canny(gray, 50, 100)
# 使用膨胀和腐蚀操作进行闭合对象边缘之间的间隙
edged = cv2.dilate(edged, None, iterations=1)
edged = cv2.erode(edged, None, iterations=1)
# 在边缘图像中寻找物体轮廓(即物体)
cnts = cv2.findContours(edged.copy(), cv2.RETR_EXTERNAL,
cv2.CHAIN_APPROX_SIMPLE)
cnts = imutils.grab_contours(cnts)
# 对轮廓按照从左到右进行排序处理
(cnts, _) = contours.sort_contours(cnts)
# 初始化 'pixels per metric'
pixelsPerMetric = None
# 循环遍历每一个轮廓
for c in cnts:
# 如果当前轮廓的面积太少,认为可能是噪声,直接忽略掉
if cv2.contourArea(c) < 100:
continue
# 根据物体轮廓计算出外切矩形框
orig = image.copy()
box = cv2.minAreaRect(c)
box = cv2.cv.BoxPoints(box) if imutils.is_cv2() else cv2.boxPoints(box)
box = np.array(box, dtype="int")
# 按照top-left, top-right, bottom-right, bottom-left的顺序对轮廓点进行排序,并绘制外切的BB,用绿色的线来表示
box = perspective.order_points(box)
cv2.drawContours(orig, [box.astype("int")], -1, (0, 255, 0), 2)
# 绘制BB的4个顶点,用红色的小圆圈来表示
for (x, y) in box:
cv2.circle(orig, (int(x), int(y)), 5, (0, 0, 255), -1)
# 分别计算top-left 和top-right的中心点和bottom-left 和bottom-right的中心点坐标
(tl, tr, br, bl) = box
(tltrX, tltrY) = midpoint(tl, tr)
(blbrX, blbrY) = midpoint(bl, br)
# 分别计算top-left和top-right的中心点和top-righ和bottom-right的中心点坐标
(tlblX, tlblY) = midpoint(tl, bl)
(trbrX, trbrY) = midpoint(tr, br)
# 绘制BB的4条边的中心点,用蓝色的小圆圈来表示
cv2.circle(orig, (int(tltrX), int(tltrY)), 5, (255, 0, 0), -1)
cv2.circle(orig, (int(blbrX), int(blbrY)), 5, (255, 0, 0), -1)
cv2.circle(orig, (int(tlblX), int(tlblY)), 5, (255, 0, 0), -1)
cv2.circle(orig, (int(trbrX), int(trbrY)), 5, (255, 0, 0), -1)
# 在中心点之间绘制直线,用紫红色的线来表示
cv2.line(orig, (int(tltrX), int(tltrY)), (int(blbrX), int(blbrY)),
(255, 0, 255), 2)
cv2.line(orig, (int(tlblX), int(tlblY)), (int(trbrX), int(trbrY)),
(255, 0, 255), 2)
# 计算两个中心点之间的欧氏距离,即图片距离
dA = dist.euclidean((tltrX, tltrY), (blbrX, blbrY))
dB = dist.euclidean((tlblX, tlblY), (trbrX, trbrY))
# 初始化测量指标值,参考物体在图片中的宽度已经通过欧氏距离计算得到,参考物体的实际大小已知
if pixelsPerMetric is None:
pixelsPerMetric = dB / args["width"]
# 计算目标的实际大小(宽和高),用英尺来表示
dimA = dA / pixelsPerMetric
dimB = dB / pixelsPerMetric
# 在图片中绘制结果
cv2.putText(orig, "{:.1f}in".format(dimA),
(int(tltrX - 15), int(tltrY - 10)), cv2.FONT_HERSHEY_SIMPLEX,
0.65, (255, 255, 255), 2)
cv2.putText(orig, "{:.1f}in".format(dimB),
(int(trbrX + 10), int(trbrY)), cv2.FONT_HERSHEY_SIMPLEX,
0.65, (255, 255, 255), 2)
# 显示结果
cv2.imshow("Image", orig)
cv2.waitKey(0)
五、算法运行过程
- 复制上面的代码到object_size.py文件中;
- 获取测试图片,并放置在该文件夹中或者其它的位置处;
- 打开window的cmd界面或者在Linux下打开一个终端;
- 切换到当前的文件夹cd /d xxx, xxx表示.py文件所在的具体路径;
- 执行python object_size.py --image 测试图片 --width 参考目标的实际大小(英尺)
- 按下 Enter键,可以看到从左到右的输出图片中所有物体的实际大小。
六、效果展示
上图展示了几张作者在博客中放的结果,整体的效果看起来还不错,下面是自己的实测效果。
这两幅图是自己实际的测试效果,标准银行卡的大小为2.215in,其实效果还是可以的。
七、问题探讨
整体来讲本文介绍的方法还不错,但是这个方法有一个很严重的缺陷就是需要提前知道参考目标的实际宽度(英尺),而获取一个目标的实际大小并不容易,这是一个值得去思考的问题,欢迎大家提出好的思路。
参考资料
1、参考博客
注意事项
[1] 如果您对AI、自动驾驶、AR、ChatGPT等技术感兴趣,欢迎关注我的微信公众号“AI产品汇”,有问题可以在公众号中私聊我!
[2] 该博客是本人原创博客,如果您对该博客感兴趣,想要转载该博客,请与我联系(qq邮箱:1575262785@qq.com),我会在第一时间回复大家,谢谢大家的关注。
[3] 由于个人能力有限,该博客可能存在很多的问题,希望大家能够提出改进意见。
[4] 如果您在阅读本博客时遇到不理解的地方,希望您可以联系我,我会及时的回复您,和您交流想法和意见,谢谢。
[5] 本人业余时间承接各种本科毕设设计和各种小项目,包括图像处理(数据挖掘、机器学习、深度学习等)、matlab仿真、python算法及仿真等,有需要的请加QQ:1575262785详聊!!!