论文来源
摘要
利用语义识别控制、视觉上基于CNN二者的模态融合控制实现人机交互,研究可识别物体的功能可供性(affordance),并进行了分类抓取的实验。
1.介绍
语音控制自然直接,是人机交互重要的手段。在给出语音命令时,许多是根据物体功能可供性而给出性指令而不是物体的具体名称,例如我想喝杯水,而不是我要用那个绿杯子喝杯水。因此,研究语音命令下的物体可提供性识别研究将是解决意图识别重要的一步。
2.相关工作
2.1 语音识别
基于语法的识别效果不好,基于数据(data)的统计学习(SL)识别效果较好,但是缺点是需要大量标记训练数据集。本部分的首要工作是提取出语言命令的目的。
2.2 物体功能性的识别
过去许多实验通过物体的几何特征,视觉特征等来预测物体的功能性。现在许多实验通过深度学习来提取物体功能性。本实验通过预先训练好的CNN神经网络从原始RGB图片中提取特征,并且通过遗传神经网络学习物体的功能性。
3.系统架构
系统包含三个模块:语音识别模块,功能性识别模块,多模态融合模块。
3.1语义识别模块
- 识别语音将其转化为文本,在Kaldi框架(包含DNN全连接神经网络)下在线识别,由于有6%-7%的错误率,将WSJ作为数据集继续训练(包括测试集)。
- 提取语义,用语义分析工具包,通过假设语义,将文本中的有关目的关键词提取出来。
3.2 功能性识别模块
- CNN特征提取,低层conv i,高层conv j
- Region proposals生成
2.1计算Location mask,先加上conv i特征图获得更准确的定位信息,再通过一个阈值实现二值化。
2.2 通过阈值分片和临近计算得到RoI mask和获得bounding box
2.3 根据bounding boxes的值在conv j的特征图上切除region proposal。bounding box的值要经过 2 l 2^l 2l次缩减。l为在conv j之前的池化层的数量. - 物体功能性分类,利用RoI池化层将不同尺寸的region proposal转化为固定长度的特征图,之后再连一个三层的全连接层进行学习分类。
在整个过程中有两个重点,一是物体定位,二是功能性分类。
3.3 多模态融合模块
Word2Vec融合算法,建立起语义矩阵和物体功能可供性之间的映射。 二者的特征矩阵都可以由NLP的工具包得到,然后计算特征矩阵之间的余弦距离来让距离最近的进行配对。
4.实验和结果
使用 ImageNet训练的VGG19神经网络进行物体功能可供性的提取,使用PR2实验平台做实验。将物体分成7类可以吃的,可以喝的,可以写的等。自己拍照做的数据集,训练集8960张照片,验证集3840张照片,测试集100张包括7种物品的照片。摄像头用的是Kinetic V2深度摄像头。做了抓取实验。