RAL 论文阅读
代码地址:https://github.com/yg19930918mp/Multi-phase_perception_framework_with_ensemble_learning
要解决什么问题?
在相对少量的抓取数据的情况下,如何提高机械手预测抓取稳定性以及预测抓取滑落的准确率。
创新点是什么?
为了解决上述问题,作者提出了一套多阶段多输出的预测模型,同时用6种网络结构和6种集成模式进行集成学习。当然除了上述的内容,作者还使用了自己的触觉传感器uSkin去获得相关数据用以训练。在我看来,文章的创新性还是略有缺乏。
具体做法是什么?
整个方法如下图主要分为两个部分
1、多阶段多输出的网络模型
首先主要的网络架构是套用现有较好用的6种网络结构:CNN, LSTM, TCN, 3D CNN, CNNLSTM and CNN-TCN。在网络后,连接一个全连接层后做一个二分类问题。同时考虑了两种预测任务的因果性,将用于预测抓取是否稳定的特征也用于预测是否发生滑动。
2、集成学习
在此之前我并未了解过集成学习的相关内容。文章提到,神经网络中的dropout和skip-connections这些技巧都是一种特殊的集成学习。在这篇文中的方法中,集成学习具体体现在将6中网络结构的输出进行集成分析获得最终的结果,有点类似统计学里面的思想。这样做究竟有什么好处呢?下面是我的一小点理解和疑惑:
数据集相对比较小,用单一网络结构学出来的分类器容易陷入局部最优。
为什么不去分析这几个网络结构的预测结果然后选取最好的?
体会不到其中的创新性,因为多次实验然后总结应该是分析结论普遍性的常用手段。
实验是怎么设计的?
实验设计内容与结果看着看着就不想看了,倒是其数据采集过程以及选取的网络可以给我们的工作带来一些参考。
1、定义了抓取稳定性和滑移标注。
2、说明了抓取数据采集过程中,抓的物体,抓的姿态等等。
简单总结
首先文章创新型不强,但是在处理相应问题的方法上可以给我们一个参考。另外随着触觉传感器的发展,在预测抓取状态感知这类问题上,是否还有一些让人更眼前一亮的创新点。