链接
https://arxiv.org/abs/1712.08324
摘要
将卷积神经网络(CNNs)与蜂箱模型环境相结合,从原始图像数据中自动识别密集群体中的所有个体。网络采用裁剪后的U-Net架构,参数比原U-Net网络规模减少了94%。召回率约为96%,其位置误差约为典型身体尺寸的7%,方位误差为12度,近似于人类的水平。
全部的数据集都从视频里面提取。实现的任务包括语义分割、目标定位和目标追踪。
采用RNN的思路保留之前检测的帧的结果数据从而提高了目标定位的精度和目标追踪的可能性(亮点是目标出了画面再回来还能接着跟踪)。
值得注意的问题
- 文章发表于17年底,然而并没有参考和引用one-stage detection相关的论文,作者的出发点是什么?因为one-stage dection 精度不够?
- 考虑到分类不平衡问题怎么优化损失函数?
可借鉴的思路
- U-Net
- RNN
- 中心点的标注办法
- 性能就dataset讨论。