2020天池 “数字人体”视觉挑战赛_算法赛道_亚军_方案分享

最新推荐文章于 2024-06-16 11:43:41 发布

lin.honghui

最新推荐文章于 2024-06-16 11:43:41 发布

阅读量2.1k

点赞数 6

分类专栏：比赛分享文章标签：算法计算机视觉机器学习

本文链接：https://blog.csdn.net/amou__/article/details/107435988

版权

比赛分享专栏收录该内容

4 篇文章 1 订阅

订阅专栏

2020天池-“数字人体”视觉挑战赛-算法赛道-亚军

文章目录

2020天池-“数字人体”视觉挑战赛-算法赛道-亚军
0. 团队信息
1. 赛题分析
2. 整体方案
3 总结
4 Reference

比赛主页：数字人体”视觉挑战赛——宫颈癌风险智能诊断

0. 团队信息

团队名称： LLLLC
团队成员：林婉宜、李晨阳（@morning_sun_lee）、梁凯焕（@knightliang）、林宏辉（@now_more）、陈展丽
团队成绩：亚军（线上成绩+现场答辩）

1. 赛题分析

1.1 赛题任务

复赛：对6类异常鳞状上皮细胞进行定位，其中，阳性类别病变4类，分别为“ASC-H”（非典型鳞状细胞倾向上皮细胞内高度）、“ASC-US”（非典型鳞状细胞不能明确意义）、“HSIL”（上皮内高度病变）、“LSIL”（上皮内低度病变）；阴性类别2类，分别为“Candida”（念珠菌）和“Trichomonas”（滴虫）；

1.2 评价指标

mAP(IoU=0.5, VOC2010)

1.3 数据分析

数据集：训练集提供1690张张数据，其中1440张带标注，在ROI区域内标注了6类病变细胞类别及位置，250张没有标注，为“纯阴性”背景数据，测试集350张数据；
数据分析：
- 待检测目标大小差异显著，存在极端大与极端小目标场景。由下图可见，四类阳性病变细胞目标框大小分布在几百像素以内，而Candida则目标普遍较大，甚至存在分辨率3000以上的目标，Trichomonas则普遍较小，大多在50像素以内；
- 类别不平衡：如下图所示，我们统计了每类异常细胞出现的RoI数量及标注框数量，Trichomonas 占据Roi数最少（仅234），却占据了数量最大的标注框数目（11747）；
- 细胞不共存先验：由医学上的先验知识可知，Candida 与 Trichomonas 生长环境最适pH值不同，在绝大多数情况下，可以认为这两种阴性病变不会同时出现，从数据集统计异常细胞分布也符合这一先验知识。此外，统计结果中四类阳性细胞病变可以共存，但不与 Candida 和 Trichomonas 同时出现，这为后面模型后处理中假阳抑制提供了一定的参考；

1.4 赛题难点

训练样本较少，目标尺度变化较大，存在类别不平衡问题；
细胞成像颜色多样性（染色剂种类、配比、染色时间、玻片带血液等因素影响）；
阳性病变形态类似，实验中出现同一病变细胞同时对多个阳性病变有较高置信度（阳性病变特征都是核质比）；
背景干扰。细胞成像背景复杂，部分玻片可能存在粘液，血等背景的干扰造成模型假阳误判；

2. 整体方案

2.1 基础方案

我们采用基于 ResNet-50 backbone 的 Faster R-CNN[1] 作为我们的基础方案，并加入了FPN[2]、DCN[3]、Cascade[4]等模块。针对不同异常病变细胞尺度变化大的问题（Candida极端大，Trichomonas极端小），我们通用模型和专家模型结合的形式。

通用模型：同时完成对6种异常病变细胞的检测；
专家模型：
- 专家模型1：只检测 Candida；
- 专家模型2：只检测 Trichomonas；
- 专家模型3：只检测4类阳性病变细胞；

2.2 数据处理

2.2.1 数据采样

比赛中所提供的数据是从细胞玻片中采样RoI，分辨率一般在几千，无法直接输入网络。我们采用 Online RandomCrop 的数据采样策略，根据提供标注框信息，以随机选择的目标框为中心，在其附近进行随机裁剪。

2.2.2 数据增强

除常规的数据增强方式如随机翻转、随机旋转、随机颜色空间扰动、随机标注框抖动外，我们针对本次比赛场景中背景干扰和训练样本较少、细胞颜色多样性等挑战设计了对应的数据增强策略。

**背景干扰：**实验中我们观察到模型假阳预测较多，且其中较多为背景误检，因此我们分别对阴性数据和阳性数据中背景信息进行利用提升训练数据中背景多样性。

“纯阴性”数据的利用（CopyPaste）：本次赛题提供的数据中，除带有标注的1440张阳性数据外，还有250张阴性样本数据。但现有对检测框架无法直接利用无标注的“纯阴性”背景数据进行训练，我们采取的策略是将阳性样本中的异常细胞以一定的概率随机贴到纯阴性背景数据中进行样本扩充。此外我们也尝试过利用阴性样本训练分类网络的方式来融入背景信息，并以此作为检测网络的backbone，实验中虽然带来模型收敛速度的提升，但最终模型泛化效果不如原来COCO预训练。
阳性数据背景利用：对每个阳性样本中标注框，我们以一定的概率对标注框位置进行随机平移，以此增加目标框周围背景多样性，通过cv2.inpainting对原来位置进行填充；

**颜色干扰：**受数字扫描仪、染色剂种类、配比、染色时间、玻片带血液等诸多因素影响，细胞成像具有色彩多样性。医学图像领域有针对染色剂归一化的方向，大致分为监督和无监督两种方式。监督的方式大多基于GAN，本次比赛为线上赛，限定了计算资源（卡不够），我们没有做进一步的探究；非监督的染色剂归一化算法很多，基本流程是通过选定一个target image 作为基准，将所有input image进行颜色空间映射来实现颜色风格归一化。而这种方式模型性能受 target image 选取影响较大，选取不好可能实验结果更加糟糕，我们本地跑初赛数据并没有带来明显实验性能的提升；

CopyPaste + StainNormalization[5] ：我们采用无监督的染色剂归一化算法与CopyPaste结合的策略，将copy的阳性细胞目标框直接贴合到新的背景中，可能因为颜色差异大而十分“违和”。我们以新背景作为target image，将copy的阳性细胞目标框都根据背景进行颜色映射，降低颜色差异（区别于上述单一target image实验，这里背景是动态随机选取，target image一直在变）。

2.3 预测与后处理

模型预测： 交叠滑窗的预测策略（stride-800，patch-1600）

后处理：

对同个模型交叠滑窗预测结果，我们采用 Box Voting 的融合策略；
对不同模型的预测结果，我们使用 Weight Box Fusion[6] 的融合策略；
对不同类别预测框进行跨类别NMS，抑制置信度较低类别；
- IoU阈值参数敏感，需根据线上成绩调优；
- 阳性异常细胞之间相似度高，尝试过在检测结果基础上训练细粒度分类器抑制假阳，但效果不好；
根据不共存先验，对Candida置信度较高的patch，抑制其余所有类型细胞的预测；
- Candida 专家模型预测可靠性较高，根据模型预测检测框阈值和检测框大小（Candida一般都很大）过滤其他类别；
- Trichomonas 的检测结果中存在较多炎性细胞的假阳，没法依据检测结果做进一步后处理；

3 总结

总结：

针对目标框尺度差异大设计通用模型与专家模型结合方案；
针对数据样本少，背景干扰、颜色干扰等设计数据增强策略；
根据医学先验知识，对检测结果进行重叠抑制、不共存抑制等后处理；

比赛结果：亚军（线上成绩+现场答辩）

4 Reference

[1] Ren, Shaoqing, et al. “Faster r-cnn: Towards real-time object detection with region proposal networks.” Advances in neural information processing systems. 2015.

[2] Lin, Tsung-Yi, et al. “Feature pyramid networks for object detection.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

[3] Dai, Jifeng, et al. “Deformable convolutional networks.” Proceedings of the IEEE international conference on computer vision. 2017.

[4] Cai, Zhaowei, and Nuno Vasconcelos. “Cascade r-cnn: Delving into high quality object detection.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.

[5] https://github.com/wanghao14/Stain_Normalization

[6] Solovyev, Roman, and Weimin Wang. “Weighted Boxes Fusion: ensembling boxes for object detection models.” arXiv preprint arXiv:1910.13302 (2019).

lin.honghui

关注

6
点赞
踩
7

收藏

觉得还不错? 一键收藏
13
评论
2020天池 “数字人体”视觉挑战赛_算法赛道_亚军_方案分享

文章目录0. 团队信息比赛主页：数字人体”视觉挑战赛——宫颈癌风险智能诊断相关代码：github0. 团队信息团队名称： LLLLC团队成员：梁凯焕（@knightliang）、李晨阳（@morning_sun_lee）、林婉宜、林宏辉（@now_more）、陈展丽...
复制链接

扫一扫