计算机视觉：使用opencv进行直线检测

智慧医疗

已于 2024-01-25 23:31:55 修改

阅读量7k

点赞数 16

分类专栏：计算机视觉文章标签：计算机视觉 opencv 人工智能霍夫变换直线检测

于 2023-11-11 20:49:30 首次发布

本文链接：https://blog.csdn.net/lsb2002/article/details/134352796

版权

计算机视觉专栏收录该内容

25 篇文章

订阅专栏

1 直线检测介绍

在图像处理中，直线检测是一种常见的算法，它通常获取n个边缘点的集合，并找到通过这些边缘点的直线。其中用于直线检测，最为流行的检测器是基于霍夫变换的直线检测技术。

1.1 什么是霍夫变换

霍夫变换（Hough Transform）是图像处理中的一种特征提取方法，可以识别图像中的几何形状。它将在参数空间内进行投票来决定其物体形状，通过检测累计结果找到一极大值所对应的解，利用此解即可得到一个符合特定形状的参数。

1.2 霍夫变换原理

一条直线可由两个点A=(X1,Y1)和B=(X2,Y2)确定(笛卡尔坐标)

另一方面，y = kx + q 也可以写成关于（k,q）的函数表达式（霍夫空间）：

对应的变换可以通过图形直观表示：

变换后的空间成为霍夫空间。即：笛卡尔坐标系中一条直线，对应霍夫空间的一个点。

反过来同样成立（霍夫空间的一条直线，对应笛卡尔坐标系的一个点）：

再来看看A、B两个点，对应霍夫空间的情形：

接下来，再看一下三个点共线的情况：

可以看出如果笛卡尔坐标系的点共线，这些点在霍夫空间对应的直线交于一点：这也是必然，共线只有一种取值可能。

如果不止一条直线呢？再看看多个点的情况（有两条直线）：

其实（3，2）与（4，1）也可以组成直线，只不过它有两个点确定，而图中A、B两点是由三条直线汇成，这也是霍夫变换的后处理的基本方式：选择由尽可能多直线汇成的点。

霍夫空间：选择由三条交汇直线确定的点（中间图），对应的笛卡尔坐标系的直线（右图）。

到这里问题似乎解决了，已经完成了霍夫变换的求解，但是如果像下图这种情况呢？

k=∞是不方便表示的，而且q怎么取值呢，这样不是办法。因此考虑将笛卡尔坐标系换为：极坐标表示。

在极坐标系下，其实是一样的：极坐标的点→霍夫空间的直线，只不过霍夫空间不再是[k,q]的参数，而是 $[\rho, \theta ]$ 的参数，给出对比图：

2 使用opencv进行直线检测

在使用霍夫变换侦测直线前，须先利用边缘检测算法来减少图像的数据量、剔掉不相关的信息，保留图像中重要的结构特征。

2.1 图像灰度化

原始图像与灰度化的图像如下：

2.2 边缘检测

利用边缘检测算法（Canny、Sobel、Laplacian等）来检测物体边缘，代码如下：

canny = cv2.Canny(gray_img, 30, 150)

2.3 霍夫变换

使用霍夫变换来得出直线检测结果，代码如下：

lines = cv2.HoughLines(canny, 1, np.pi / 180, 180)
lines1 = lines[:, 0, :]
for rho, theta in lines1[:]:
    a = np.cos(theta)
    b = np.sin(theta)
    x0 = a * rho
    y0 = b * rho
    x1 = int(x0 + 3000 * (-b))
    y1 = int(y0 + 3000 * (a))
    x2 = int(x0 - 3000 * (-b))
    y2 = int(y0 - 3000 * (a))
    cv2.line(im, (x1, y1), (x2, y2), (0, 0, 255), 2)

运行结果显示如下：

2.4 完整代码

import cv2
import numpy as np


im = cv2.imread("../data/ladder.jpg")

cv2.imshow('original', im)
cv2.waitKey(0)

gray_img = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)
cv2.imshow('gray', gray_img)
cv2.waitKey(0)

canny = cv2.Canny(gray_img, 30, 150)
cv2.imshow('canny', canny)
cv2.waitKey(0)

lines = cv2.HoughLines(canny, 1, np.pi / 180, 180)
lines1 = lines[:, 0, :]
for rho, theta in lines1[:]:
    a = np.cos(theta)
    b = np.sin(theta)
    x0 = a * rho
    y0 = b * rho
    x1 = int(x0 + 3000 * (-b))
    y1 = int(y0 + 3000 * (a))
    x2 = int(x0 - 3000 * (-b))
    y2 = int(y0 - 3000 * (a))
    cv2.line(im, (x1, y1), (x2, y2), (0, 0, 255), 2)

cv2.imshow('original', im)
cv2.waitKey(0)

3 使用opencv检测倾角

import cv2
import numpy as np
 
def line_detect(image):
  # 将图片转换为HSV
  hsv = cv2.cvtColor(image, cv2.COLOR_BGR2HSV)
  # 设置阈值
  lowera = np.array([0, 0, 221])
  uppera = np.array([180, 30, 255])
  mask1 = cv2.inRange(hsv, lowera, uppera)
  kernel = np.ones((3, 3), np.uint8)
 
  # 对得到的图像进行形态学操作（闭运算和开运算）
  mask = cv2.morphologyEx(mask1, cv2.MORPH_CLOSE, kernel) #闭运算：表示先进行膨胀操作，再进行腐蚀操作
  mask = cv2.morphologyEx(mask, cv2.MORPH_OPEN, kernel)  #开运算：表示的是先进行腐蚀，再进行膨胀操作
 
  # 绘制轮廓
  edges = cv2.Canny(mask, 50, 150, apertureSize=3)
  # 显示图片
  cv2.imshow("edges", edges)
  # 检测白线  这里是设置检测直线的条件，可以去读一读HoughLinesP()函数，然后根据自己的要求设置检测条件
  lines = cv2.HoughLinesP(edges, 1, np.pi / 180, 40,minLineLength=10,maxLineGap=10)
  print "lines=",lines
  print "========================================================"
  i=1
  # 对通过霍夫变换得到的数据进行遍历
  for line in lines:
    # newlines1 = lines[:, 0, :]
    print "line["+str(i-1)+"]=",line
    x1,y1,x2,y2 = line[0]  #两点确定一条直线，这里就是通过遍历得到的两个点的数据 （x1,y1）(x2,y2)
    cv2.line(image,(x1,y1),(x2,y2),(0,0,255),2)   #在原图上画线
    # 转换为浮点数，计算斜率
    x1 = float(x1)
    x2 = float(x2)
    y1 = float(y1)
    y2 = float(y2)
    print "x1=%s,x2=%s,y1=%s,y2=%s" % (x1, x2, y1, y2)
    if x2 - x1 == 0:
      print "直线是竖直的"
      result=90
    elif y2 - y1 == 0 :
      print "直线是水平的"
      result=0
    else:
      # 计算斜率
      k = -(y2 - y1) / (x2 - x1)
      # 求反正切，再将得到的弧度转换为度
      result = np.arctan(k) * 57.29577
      print "直线倾斜角度为：" + str(result) + "度"
    i = i+1
  #   显示最后的成果图
  cv2.imshow("line_detect",image)
  return result
 
if __name__ == '__main__':
  # 读入图片
  src = cv2.imread("lines/line6.jpg")
  # 设置窗口大小
  cv2.namedWindow("input image", cv2.WINDOW_AUTOSIZE)
  # 显示原始图片
  cv2.imshow("input image", src)
  # 调用函数
  line_detect(src)
  cv2.waitKey(0)

4 opencv介绍

OpenCV的全称是Open Source Computer Vision Library，是一个跨平台的计算机视觉处理开源软件库，是由Intel公司俄罗斯团队发起并参与和维护，支持与计算机视觉和机器学习相关的众多算法，以BSD许可证授权发行，可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序，该程序库也可以使用英特尔公司的IPP进行加速处理。

4.1 核心模块

【core】核心模块

OpenCV基本数据结构
动态数据结构
绘图函数
数组操作相关函数
辅助功能与系统函数和宏
与OpenGL的互操作

【imgproc】Imaging与Processing两个单词的缩写的组合。图像处理模块。

线性和非线性的图像滤波
图像的几何变换
其他（Miscellaneous）图像转换
直方图相关
结构分析和形状描述
运动分析和对象跟踪
特征检测
目标检测等内容

【features2d】2D功能框架

特征检测和描述
特征检测器（Feature Detectors）通用接口
描述符检测器（Descriptor Extrators）通用接口
描述匹配器（Descriptor Matches）通用接口
通用描述符（Generic Descriptor）匹配器通用接口
关键点绘制函数和匹配功能绘制函数

【flann】—— Fast Library for Approximate Nearest Neighbors，高维的近似近邻快速搜索算法库，包含两个部分：

快速近似最近邻搜索
聚类

【gpu】——运用GPU加速的计算机视觉模块

【legacy】——一些已经废弃的代码库，保留下来作为向下兼容，包含如下相关的内容：

运动分析
期望最大化
直方图
平面细分（C API）
特征检测和描述（Feature Detection and Description）
描述符提取器（Descriptor Extractors）的通用接口
通用描述符（Generic Descriptor Matchers）的常用接口
匹配器

【ml】——Machine Learning，机器学习模块，基本上是统计模型和分类算法，包含如下内容：

统计模型（Statistical Models）
一般贝叶斯分类器（Normal Bayes Classifier）
K-近邻（K-NearestNeighbors）
支持向量机（Support Vector Machines）
决策树（Decision Trees）
提升（Boosting）
梯度提高树（Gradient Boosted Trees）
随机树（Random Trees）
超随机树（Extremely randomized trees）
期望最大化（Expectation Maximization）
神经网络（Neural Networks）
MLData

【nonfree】，也就是一些具有专利的算法模块，包含特征检测和GPU相关的内容。最好不要商用，可能会被告侵权。其中SIFT特征点的检测和处理都在此模块中。

【objdetect】——目标检测模块，包含Cascade Classification（级联分类）和Latent SVM这两个部分。

【ocl】——即OpenCL-accelerated Computer Vision，运用OpenCL加速的计算机视觉组件模块

【photo】——也就是Computational Photography，包含图像修复和图像去噪两部分

【stitching】——images stitching，图像拼接模块，包含如下部分：

拼接流水线
特点寻找和匹配图像
估计旋转
自动校准
图片歪斜
接缝估测
曝光补偿
图片混合

【superres】——SuperResolution，超分辨率技术的相关功能模块

【ts】——opencv测试相关代码

【video】——视频分析组件，该模块包括运动估计，背景分离，对象跟踪等视频处理相关内容。

【Videostab】——Video stabilization，视频稳定相关的组件，官方文档中没有多作介绍。
【shape】——形状的匹配以及距离计算SHAPE

4.2 图像相关概念

像素

图片尺寸以像素为单位时，每一厘米等于28像素，如1515厘米长度的图片，等于420420像素的长度。一个像素所能表达的不同颜色数取决于比特每像素(BPP)。

灰度图像:8bpp=2的8次方=256色，
高彩色:16bpp=2的16次方=65536色，
真彩色:24bpps=2的24次方=16777216色。

图像分辨率：

图像分辨率是图像总像素的多少，由于图像通常用矩阵表示，所以分辨率常用，mn表示，注意: n 表示行数(代表一列包含的像素)，m表示列数代表一行包含的像素。

640X480表示图像的长和宽分别为640和480，总像素为640X480=307200(相机中所说的30万分辨率)，
800X600表示图像的长和宽分别为800和600，总像素为800X600=480000(相机中所说的50万分辨率)。

图像的表示

在OpenCV中，图像是一个矩阵，具有高度和宽度，并且每个像素的强度用一个值来表示（例如，灰度图像中的像素强度在0到255之间）。对于彩色图像，每个像素通常需要用三个值来表示颜色通道（例如，红绿蓝）。OpenCV中使用的常用图像格式包括：

灰度图像：每个像素由一个8位整数表示强度，值在0到255之间。
彩色图像：每个像素由三个8位整数表示强度，值在0到255之间，分别对应红、绿、蓝三个通道。

图像是由像素组成的，而像素实际上就是带有坐标位置和颜色信息的点。我们把图片想象成由若干行，若干列的点组成的，现实中有RGB颜色系统，我们可以把图中任意一点（位置在第m行，第n列）的点A表示为

A[m,n] = [blue,green,red]
参数解读
m |A点在图像中的第m行
n |A点在图像中的第n列
blue |表示蓝色，三原色（RGB）的第一个数值
green|表示绿色，三原色（RGB）的第二个数值
red |表示红色，三原色（RGB）的第一个数值

每个点对应的亮度可以理解为rgb的值，无符号8位数3维，则一个像素点为3维数组，分别对应RGB的值，在OpenCV中数据类型为:cV_8u3C。
假设Mx N，lij表示第j行j列，对应上图就是M= 300，N= 200。
假设Mx N，lij表示第j行j列，对应上图就是M= 300，N= 200。

图像的操作

OpenCV提供了广泛的图像操作功能，包括读取、保存、显示、创建、复制、裁剪和缩放等。

4.3 优势

编程语言
OpenCV基于C++实现，同时提供python, Ruby, Matlab等语言的接口。OpenCV-Python是OpenCV的Python API，结合了OpenCV C++API和Python语言的最佳特性。
跨平台
OpenCV可以在不同的系统平台上使用，包括Windows，Linux，OS，X，Android和iOS。基于CUDA和OpenCL的高速GPU操作接口也在积极开发中。
活跃的开发团队
自从第一个预览版本于2000年公开以来，一直在进行更新。
丰富的API
完善的传统计算机视觉算法，涵盖主流的机器学习算法，同时添加了对深度学习的支持。