1.https://github.com/ternaus/TernausNet
TernausNet is a modification of the celebrated UNet architecture that is widely used for binary Image Segmentation. For more details, please refer to our arXiv paper.
(Network architecure)
Pre-trained encoder speeds up convergence even on the datasets with a different semantic features. Above curve shows validation Jaccard Index (IOU) as a function of epochs for Aerial Imagery
This architecture was a part of the winning solutiuon (1st out of 735 teams) in the Carvana Image Masking Challenge.
2.Kaggel DSTL
训练步骤
该模型能够对输入图像的每个像素作出该点属于目标类的概率。虽然用Jaccard指数作为模型的评估指标,但是在训练过程中以最小化所有像素的二进制交叉熵总和为训练目标。
我们对数据集通过预先计算得到数据的统计值,将图像集归一化为具有零均值和单位方差的数据集。
根据图像的实际类别,我们将预处理的图像保持不变,或者将图像及相应标签共同调整为1024x1024和2048x2048分辨率的正方形图像。在训练期间,我们从不同的图像中随机收集大小为256x256的图像块,其中一半的图像块总是包含了一些正像素,即分类的目标对象。我们通过对图像块随机地应用水平翻转、垂直翻转、随机旋转和颜色抖动等方法来增加批次中的图像数量。虽然在处理数据集的不平衡类问题时,有欠采样和调整数据集权重等多种方法,如上过采样方法是效果最好和最简单的方法。
每个网络模型有大约有170万个参数,设置批次大小为4。该网络训练没有采用现有模型进行微调的方法,在单个GTX 1070上花了约两天时间完成了从权值初始化开始进行的网络训练过程。
后期处理
地面实际情况的标签通过WKT格式文件进行加载,以由顶点定义的多边形来表示对象。我们在提交过程中需要简化所生成的多边形,去除不必要的噪声干扰。这样评估系统可以快速处理所提交的结果,避免超时而限制实际效果。我们可以通过使用二值化输出上的参数化操作,以最小的评估指标损失来实现多边形简化。在后期处理阶段,我们使用了形态学上的图像扩张和侵蚀操作,简单有效地去除了小于给定阈值的物体及小孔