在前面的[项目简介][环境搭建][数据准备]中,我们已经完成了项目简介,环境搭建以及数据准备工作,接下来就要搭建网络和模型训练了。
现实生活中,我们往往把一些问题建模成数学问题,深度学习中的图像分割就是把分割建模成数学模型。
在进入实战之前,首先讲一下什么是模型,大家都听过AlexNet,ResNet,R-CNN,UNet等名词,这些我们都统称为卷积神经网络,也叫CNN,主要应用于计算机视觉领域,是深度学习的一个重要应用分支,另一个应用比较广泛的是循环神经网络,主要应用于自然语言处理,由于注意力机制在自然语言中太成功了,所以近两年基于自注意力机制的视觉模型在CV领域也非常火热,但我们主要以CNN为主。
图像分割问题实质是对图像每个像素进行分类,由于原图像中每个像素语义信息非常稀疏,没办法在原始图像上进行像素分类,所以需要从原始图像域转换到特征图像域,而这个转换过程需要CNN来提取特征,然后针对特征图像素进行分类,同一类物体被分配同一个分类标签,我们称为语义分割,同一类物体的不同实例被分配不同的标签,我们称为实例分割。
前面我们说过,要想提高分割的准确性,可以主要从两个方面下功夫,第一个是数据增广,另一个就是模型的设计上,一般而言,越靠近输入层,模型感受野也小,模型捕获的特征越抽象,网络捕获的是细节信息,例如,边缘,颜色等,越靠近输出端,感受野越大,特征越具体,包含的语义信息越丰富,这种信息对于分类起到很大作用,所以,层数多的模型要比层数少的模型效果要好