python机器学习——图像内容分析-CSDN博客

本文链接：https://blog.csdn.net/qq_41251963/article/details/81776752

本文介绍计算机视觉的基本概念和技术，包括图像处理、边检测、直方图均衡化、棱角检测、特征点检测等内容，并通过实际代码演示了这些技术的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

计算机视觉：

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

计算机视觉包括多个级别的分析。在低级视觉分析领域，计算机视觉可以进行像素处理，例如边检测，形态处理和光流。在中级和高级视觉分析领域，计算机视觉可以处理事物，例如物体识别，3D建模，运动分析以及其他方面的视觉数据。

计算机视觉与图像处理有什么不同：

图像处理是在像素级别对图像进行变换。图像处理系统的输入和输出都是图像，常用的图像处理有边检测，直方图均衡化或图像压缩。计算机视觉算法大量依赖了图像处理算法来执行任务，在计算机视觉领域，我们还处理更复杂的事情，例如在概念层级理解视觉数据，期望借此帮助自己构建对图像对象更有意义的描述。计算机视觉系统的输出是给定图像的3D场景的描述，这样的描述可以是各种形式的，而这取决你的需要。

1.用OpenCV-python操作图像
加载并展示图像，裁剪，调整大小并将图片保存到输出文件中。
用到的图片forest.jpg
这里写图片描述

代码：

import sys
import cv2
import numpy as np

"""
指定输入图像为文件的第一个参数，并使用图像读取函数来读取参数
"""
# 加载并显示图像 -- 'forest.jpg'
input_file = sys.argv[1]
img = cv2.imread(input_file)
#显示输入图像
cv2.imshow('Original', img)
"""
裁剪图像，提取输入图像的高度和宽度，然后指定边界
"""
# 裁剪图像
h, w = img.shape[:2]
start_row, end_row = int(0.21*h), int(0.73*h)
start_col, end_col= int(0.37*w), int(0.92*w)

"""
用NumPy式的切分方式裁剪图像，并展示
"""
img_cropped = img[start_row:end_row, start_col:end_col]
cv2.imshow('Cropped', img_cropped)
"""
将图像调整为原始图像大小的1.3倍，并展示
"""
# 调整图像大小
scaling_factor = 1.3
img_scaled = cv2.resize(img, None, fx=scaling_factor, fy=scaling_factor, 
        interpolation=cv2.INTER_LINEAR)
cv2.imshow('Uniform resizing', img_scaled)
img_scaled = cv2.resize(img, (250, 400), interpolation=cv2.INTER_AREA)
cv2.imshow('Skewed resizing', img_scaled)

# 保存图像
output_file = input_file[:-4] + '_cropped.jpg'
cv2.imwrite(output_file, img_cropped)

cv2.waitKey()#waitKey函数保持显示图像，直到按下键盘的任一个按键

在cmd中运行：python 文件名.py forest.jpg

输入图像：
这里写图片描述
裁剪后图像：

从两个维度均匀调整大小后的图像：

从一个维度调整大小后的图像：

2.检测边
检测边是计算机视觉中最常用到的技术之一，常用在很多预处理过程中。
用到的图片：chair.jpg
这里写图片描述
代码：

import sys
import cv2
import numpy as np

# 加载输入图片 -- 'chair.jpg'
# 转化为灰度图
input_file = sys.argv[1]
img = cv2.imread(input_file, cv2.IMREAD_GRAYSCALE)
#提取输入图像的高度
h, w = img.shape

"""
索贝尔滤波器：是一种边检测器，它使用3x3内核来检测水平边和垂直边
"""
sobel_horizontal = cv2.Sobel(img, cv2.CV_64F, 1, 0, ksize=5)
"""运行索贝尔垂直检测器"""
sobel_vertical = cv2.Sobel(img, cv2.CV_64F, 0, 1, ksize=5)
"""
拉普拉斯边检测器：可以检测两个方向上的边
"""
laplacian = cv2.Laplacian(img, cv2.CV_64F)
"""
尽管拉普拉斯边检测器弥补了索贝尔边检测器的不足，但是拉普拉斯边检测器的输出仍然带有很多噪声
Canny边检测器：在解决噪声问题方面优于拉普拉斯边检测器和索贝尔边检测器。
Canny边检测器是一个分阶段的处理过程，它用到了迟滞性来做边数据清理。
"""
canny = cv2.Canny(img, 50, 240)
#显示所有图像
cv2.imshow('Original', img)
cv2.imshow('Sobel horizontal', sobel_horizontal)
cv2.imshow('Sobel vertical', sobel_vertical)
cv2.imshow('Laplacian', laplacian)
cv2.imshow('Canny', canny)

cv2.waitKey()

在cmd运行：python 文件名.py chair.jpg

原始图片：
这里写图片描述
索贝尔水平边检测器的输出：它检测到的边大致都是垂直的，这是因为它是一个水平边检测器，它能检测出在水平方向上的变化。

索贝尔垂直边的输出：

拉普拉斯边检测器的输出：

Canny边检测器较好地检测了所有的边：
这里写图片描述

直方图均衡化
直方图均衡化：是指修改图像的像素，以增强图像的对比强度的过程。
用到的图片 sunrise.jpg
这里写图片描述

代码：

import sys
import cv2
import numpy as np

# 加载输入图片 -- 'sunrise.jpg'
input_file = sys.argv[1]
img = cv2.imread(input_file)

# 转化为灰度图并显示出来
img_gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
cv2.imshow('Input grayscale image', img_gray)

# 均衡直方图，并显示出来
img_gray_histeq = cv2.equalizeHist(img_gray)
cv2.imshow('Histogram equalized - grayscale', img_gray_histeq)


# 均衡彩色图像直方图
img_yuv = cv2.cvtColor(img, cv2.COLOR_BGR2YUV)
#均衡Y通道
img_yuv[:,:,0] = cv2.equalizeHist(img_yuv[:,:,0])
#将其转化为BGR
img_histeq = cv2.cvtColor(img_yuv, cv2.COLOR_YUV2BGR)
#显示输入和输出图像
cv2.imshow('Input color image', img)
cv2.imshow('Histogram equalized - color', img_histeq)

cv2.waitKey()

在cmd运行：python 文件名.py sunrise.jpg
这里写图片描述

3.检测棱角
检测棱角是计算机视觉中的一个重要环节，它帮助我们识别图像中突出的点，这是用于开发图像分析系统中最早期的特征提取技术之一。

用到的图片 box.png
这里写图片描述

代码：

import sys
import cv2
import numpy as np

# 加载输入对象 -- 'box.png'
input_file = sys.argv[1]
img = cv2.imread(input_file)
cv2.imshow('Input image', img)

#将图像转为灰度，并将其强制转化为浮点值，浮点值用于棱角检测过程
img_gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
img_gray = np.float32(img_gray)

# 哈里斯角检测器
img_harris = cv2.cornerHarris(img_gray, 7, 5, 0.04)

# 放大图像，以标记棱角
img_harris = cv2.dilate(img_harris, None)

# 用阈值显示棱角
img[img_harris > 0.01 * img_harris.max()] = [0, 0, 0]
#显示输出图像
cv2.imshow('Harris Corners', img)
cv2.waitKey()

在cmd运行：python 文件名.py box.png
原始输入图像：
这里写图片描述
检测棱角处理后图像：

4.检测SIFT特征点
尺度不变特征变换（SIFT）是计算机视觉领域最常用的特征之一。SIFT成为图像识别和图像内容分析领域最有效的特征之一，它在大小，方向，对比度等方向都有较强的健壮性。SIFT也是目标识别系统的基础。

用到的图片：table.jpg
这里写图片描述

代码：

import sys
import cv2
import numpy as np


# 加载图像 -- 'table.jpg'
input_file = sys.argv[1]
img = cv2.imread(input_file)

#将图像转为灰度
img_gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

#初始化SIFT检测对象并提取关键点：
sift = cv2.xfeatures2d.SIFT_create()
keypoints = sift.detect(img_gray, None)


#在输入图像上画出关键点
img_sift = np.copy(img)
cv2.drawKeypoints(img, keypoints, img_sift, flags=cv2.DRAW_MATCHES_FLAGS_DRAW_RICH_KEYPOINTS)
#显示输入和输出图像
cv2.imshow('Input image', img)
cv2.imshow('SIFT features', img_sift)
cv2.waitKey()

cmd运行：python 文件名.py chair.jpg

这里写图片描述

注意：所有运行的文件要和用到的图片在同一路径下。

5.创建Star特征检测器

SIFI特征检测器在很多场景中都很好用，但是，当创建目标识别系统时，在用SIFI检测特征之前，可能需要用到一个不同的特征检测器，Star特征检测器，这使我们能够通过灵活地层叠不同的模块来获得最佳性能。

import sys
import cv2
import numpy as np

class StarFeatureDetector(object):
    def __init__(self):
        self.detector = cv2.xfeatures2d.StarDetector_create()

    def detect(self, img):
        return self.detector.detect(img)

if __name__=='__main__':
    # 加载图片 -- 'table.jpg'
    input_file = sys.argv[1]
    input_img = cv2.imread(input_file)

    # 转化为灰度图
    img_gray = cv2.cvtColor(input_img, cv2.COLOR_BGR2GRAY)

    # 用Star特征检测器检测出特征
    keypoints = StarFeatureDetector().detect(input_img)

    # 画出输入图像的关键点
    cv2.drawKeypoints(input_img, keypoints, input_img, 
            flags=cv2.DRAW_MATCHES_FLAGS_DRAW_RICH_KEYPOINTS)
    #显示输出图像
    cv2.imshow('Star features', input_img)

    cv2.waitKey()

运行结果：
这里写图片描述

识别图中所有人脸

face_recognition ,开源的人脸识别库，离线识别率高达99.38%。
安装：pip install face_recognition
安装的过程，可能在dlib这个环节报错。dlib需要手动安装。可在百度中寻找安装方法。

用到的图片：1.jpg
这里写图片描述

代码：


# -*- coding: utf-8 -*-
from PIL import Image
import face_recognition

# 将jpg文件加载到numpy 数组中
image = face_recognition.load_image_file("1.jpg")
face_locations = face_recognition.face_locations(image)

# 使用CNN模型
# face_locations = face_recognition.face_locations(image, number_of_times_to_upsample=0, model="cnn")

# 打印：我从图片中找到了 多少 张人脸
print("I found {} face(s) in this photograph.".format(len(face_locations)))

# 循环找到的所有人脸
for face_location in face_locations:

        # 打印每张脸的位置信息
        top, right, bottom, left = face_location
        print("A face is located at pixel location Top: {}, Left: {}, Bottom: {}, Right: {}".format(top, left, bottom, right))

        # 指定人脸的位置信息，然后显示人脸图片
        face_image = image[top:bottom, left:right]
        pil_image = Image.fromarray(face_image)
        pil_image.show()

运行结果，输出所有人脸。

自动识别人脸特征

用到的图片 2.jpg
这里写图片描述

代码：

# -*- coding: utf-8 -*-
from PIL import Image, ImageDraw
import face_recognition
image = face_recognition.load_image_file("2.jpg")


face_landmarks_list = face_recognition.face_landmarks(image)

print("I found {} face(s) in this photograph.".format(len(face_landmarks_list)))

for face_landmarks in face_landmarks_list:
    facial_features = [
        'chin',
        'left_eyebrow',
        'right_eyebrow',
        'nose_bridge',
        'nose_tip',
        'left_eye',
        'right_eye',
        'top_lip',
        'bottom_lip'
    ]

    for facial_feature in facial_features:
        print("The {} in this face has the following points: {}".format(facial_feature, face_landmarks[facial_feature]))

    pil_image = Image.fromarray(image)
    d = ImageDraw.Draw(pil_image)

    for facial_feature in facial_features:
        d.line(face_landmarks[facial_feature], width=5)

    pil_image.show()

识别人脸并美颜

代码：

# -*- coding: utf-8 -*-
from PIL import Image, ImageDraw
import face_recognition

#将jpg文件加载到numpy数组中
image = face_recognition.load_image_file("3.jpg")

#查找图像中所有面部的所有面部特征
face_landmarks_list = face_recognition.face_landmarks(image)

for face_landmarks in face_landmarks_list:
    pil_image = Image.fromarray(image)
    d = ImageDraw.Draw(pil_image, 'RGBA')

    #让眉毛变成了一场噩梦
    d.polygon(face_landmarks['left_eyebrow'], fill=(68, 54, 39, 128))
    d.polygon(face_landmarks['right_eyebrow'], fill=(68, 54, 39, 128))
    d.line(face_landmarks['left_eyebrow'], fill=(68, 54, 39, 150), width=5)
    d.line(face_landmarks['right_eyebrow'], fill=(68, 54, 39, 150), width=5)


    #光泽的嘴唇
    d.polygon(face_landmarks['top_lip'], fill=(150, 0, 0, 128))
    d.polygon(face_landmarks['bottom_lip'], fill=(150, 0, 0, 128))
    d.line(face_landmarks['top_lip'], fill=(150, 0, 0, 64), width=8)
    d.line(face_landmarks['bottom_lip'], fill=(150, 0, 0, 64), width=8)

    #闪耀眼睛
    d.polygon(face_landmarks['left_eye'], fill=(255, 255, 255, 30))
    d.polygon(face_landmarks['right_eye'], fill=(255, 255, 255, 30))

    #涂一些眼线
    d.line(face_landmarks['left_eye'] + [face_landmarks['left_eye'][0]], fill=(0, 0, 0, 110), width=6)
    d.line(face_landmarks['right_eye'] + [face_landmarks['right_eye'][0]], fill=(0, 0, 0, 110), width=6)

    pil_image.show()