网红背景一键换： Deelvin带你秒达浪漫土耳其和东京巴黎

最新推荐文章于 2024-07-23 16:23:28 发布

「已注销」

最新推荐文章于 2024-07-23 16:23:28 发布

阅读量272

点赞数

文章标签：神经网络计算机视觉人工智能深度学习卷积神经网络

本文链接：https://blog.csdn.net/duxinshuxiaobian/article/details/109912773

版权

全文共2203字，预计学习时长6分钟

本文将介绍一种新型的人物视觉图像分割工具，能够更改图像背景，先来看看示例图：

人工智能可以在视频或图片中识别出人物，随后突出显示他，并改变其背景。这个工具的适用情景广泛，可以用来在视频通话时隐藏房间里乱七八糟的背景；对远程工作的人来说，它可以保证会议时不分心；你还可以用它把电影角色放在有趣的背景中，制造一个新的模因。

任务描述

如果要在图像中突出显示一个人，那么该对象不能离相机太远，它可以是人物距离较近的自拍、网络摄像或普通的拍摄。如果这个人手里拿着别的东西，这个物品也将被突出显示。

接下来笔者将介绍语义分割和实例分割的区别。

这两者的区别在于语义分割将突出显示图像中的所有人，而实例分割将每个人用高亮单独显示。

我们团队选择语义分割是因为图像中通常只有一个人，因此不需要多此一举使用实例分割。在语义分割中，如果图像中有多个人，则无需一一选择，只需要选择所有人并改变背景。

数据集

现在笔者将介绍几个可用于人物图像分割的开放数据集。

· Coco是最常用的分割数据集之一。除了“人”这个分类外，还有很多附加的类，比如“苹果”、“马”、“车”等等。有了这样的标注，人们就可以选择只有人的图像，并在这些图像上加上神经网络。下面是此数据集的图像示例：

这种数据集的缺点是，一些图像中的标注不能精准识别人体的某些部位。在这张图像中，头部、手臂和腿部未被选中。此外，无需分割远离主要对象的人物。

· 另一种是Supervisely人像分割数据集。其中有5000多张人的照片，如下图所示，它比Coco分割得更加精准。

但是，这个数据集精准分割的前提是人们的手上没有拿着物品。试想：视频中，你的手里放松地拿着一杯鸡尾酒，当你把背景换成海滩时，手中的鸡尾酒不见了。这可不适用于我们的任务。

另外，数据集中的5000张图像是不够的，还有一些图像中的人们离镜头很远，这些都不适用于我们的任务。

上面介绍的几个著名的开放分割数据集，由于一些原因，它们都不适合我们的任务。因此，我们决定创建自己的数据集。

我们花了很长时间编写这个数据集，现在，它包含了40000多个样本。我们考虑了所有可能因素：长发和短发、不同的衣服和手上的物品，以及戴眼镜、戴帽子。这么多的图像足以应对我们的任务，但在图像增强的过程中会存在更多的可能性。

图像增强

此时，图像增强是指将各种变换应用于图像上，示例如下：

第一个和第二个图像（分别命名为“原始”和“亮度对比度”）是不同的。肉眼看来，这些图像很相似，但对于神经网络来说，它们完全不同。结果表明，如果对每个图像应用“亮度对比度”，那么采样数将增多一倍。图像增强方法增多会导致样本数成倍增加，因此模型的学习效果会更好。

如果想要增加数据集中的图像数量以进行神经网络的分割，用图像增强已经足够了。此外，图像增强还能更贴近现实生活。在现实生活中，图像质量往往会因为人为因素而降低，这将降低神经网络分割的准确性。

例如，如果用户没有性能足够好的摄像机，那么当人们移动时，视频中就可能会模糊，而这将大大降低神经网络分割的准确性，因为数据集中从未出现过这样的图像。但是如果应用运动模糊，就会出现类似的失真，而模型的精度也会提高。

神经网络

在准备好数据集之后，我们团队用不同的神经网络结构进行了实验。结果表明，我们建立了自己的卷积神经网络，它建立在一个自动编码器上。这个自动编码器在imagenet数据集经过了预先训练，它包含了自定义图层，以最大限度地提高精度。

该模型在RTX2080TI显卡上进行了为期几天的训练，最终的准确度超过了0.98IOU（最大值为1.0）。

蓝色曲线-训练数据集；红色曲线-有效数据集

如上图所示，在训练开始时，训练数据集的结果比有效数据集的结果要低（尽管经常会发生相反的情况）。这是因为神经网络分割只包含数据集中的图像增强，速度较慢。最后，两条直线渐渐靠拢，这意味着我们得到的结果是正确的。

分配给正确类的像素越多，IOU度量（Interpover Union，一种测量特定数据集中检测相应物体准确度的标准）就越高。从图中可以看出，神经网络已经分割得很好了，现在，我们需要看看它是如何处理真实数据的。

结果

正如这两张图片所显示的，结果相当清晰，但是在边缘有一些小瑕疵，很明显神经网络对头发的分割更加困难。对比发型不同的其他图片的处理质量也十分有趣。

这个模型把这些图片处理得很好。例如那张拿着文件夹的人的图片，它不仅能够把人们与他们手中的物品分割开来，而且能够非常精确地分割出每一缕细细的头发。这需要很复杂的计算，而模型很好地完成了。

本文介绍了一个非常有效的图像分割工具，文章中的案例也将会被发表在Deelvin的官网上。

推荐阅读专题

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

编译组：段筱玥、杨月