Personalized Estimation of Engagement from Videos Using Deep Reinforcement Learning

Introduction

  1. 能够准确的识别用户的参与状态能很好的使一些系统能够在恰当的时间提供必要的交互来完成交互的任务。
  2. 参与评估的一个基本挑战是人们如何激发参与以及如何在计算参与模型中表示参与。
  3. 传统的方法使用非语言的参与线索,如注视模式、身体姿势、韵律、面部表情、空间关系和任务上下文行为。
  4. 因为个体与个体之间的差异性较大,所以造成训练集训练出来的模型利用测试集进行测试的结果效果很差。
  5. 然而,大部分的已存在的使用DRL的AL框架是为了静态的模型任务而设计的,例如图片分类,并没有直接应用到视频上。
  6. 虽然有一些应用在动作检测和动作识别领域并且基于视频,然而这些使依赖于启发式AL策略,而不是数据驱动的DRL,而且没有尝试使用个性化的AL。
  7. 在未来,类似的方法可以被用来允许机器人在交互过程中自主地请求新的标签,例如,通过问诸如“你想继续玩吗?”,当它认为用户的参与度很低,或者不确定自己的估计时。
    在这里插入图片描述

Related Work

  1. AL框架的核心是用于决定何时为目标数据请求标签的查询策略。
  2. 利用DRL来决定是请求标签还是进行预测。代理将收到与其决策相关的奖励:正确预测将得到正面奖励,错误预测或标签请求将得到负面奖励。(依然是针对图像分类问题)
  3. 相反,我们提出了一种方法,在这种情况下,机器人首先存储它不确定的视频,在这种情况下不进行交战评估。在互动之后,一个人类专家被要求为这些视频提供她的反馈,然后以离线的方式使用这些视频,通过优化数据标签/参与评估策略来个性化数据标签/参与评估策略,以适应未来与目标儿童的互动。

Preliminaries

Problem Statement and Notation

  1. d i d_i di表示第i个视频片段,集合为 D = { d 1 , . . . , d i , . . . , d C } D=\{d_1,...,d_i,...,d_C\} D={d1,...,di,...,dC}
  2. 每个视频片段被切成最多M=8个不同的session, d i = { S i , j } j = 1 , . . . , M d_i=\{S_{i,j}\}_{j=1,...,M} di={Si,j}j=1,...,M
  3. 每个session包括K个视频小clips, S i , j = { v i , j 1 , . . . , v i , j k , . . . , v i , j K } S_{i,j}=\{v_{i,j}^1,...,v_{i,j}^k,...,v_{i,j}^K\} Si,j={vi,j1,...,vi,jk,...,vi,jK}
  4. 每个clip是 v i , j k = { X , y } v_{i,j}^k=\{X,y\} vi,jk={X,y},其中X是250X250窗口大小的T帧图像。 y = { 0 , 1 , 2 } y=\{0,1,2\} y={0,1,2}和孩子的专注等级相关。

Action Recognition from Video Data

  1. 使用LSTM来区分每个clip
    在这里插入图片描述
  2. 过程就如同之前的结构框架图中描述的那样。
  3. 然而,本工作的重点是学习个性化策略,以便以高效的数据方式标记和适应engagement分类器,并使用深度RL的概念。

RL for Data-labeling Policy Learning

定义两个决策,0代表不需要label,1表示需要打标签,需要预测是哪个标签。

Methodology

  1. 利用预处理的神经网络从视频帧中提取深度特征。
  2. 研究了RL模型的q -函数的学习,该模型由LSTM单元和fcL两部分组成,然后是softmax层。

Deep Features

  1. ResNet-50结构。
  2. 应用了旋转图像的数据增强,以适应不同的相机视图。

Group-policy Learning

  1. group-policy π g \pi_g πg是针对决定何时查询视频标签和何时估计专注度等级。
  2. 如果请求专注度标签,模型需要有一个负反馈;同样,如果决定估计专注等级,并且估计正确,需要有一个正反馈,否则负反馈。
    在这里插入图片描述
  3. 使用LSTM核进行Q-function的估计。
  4. 离散的动作空间:
    在这里插入图片描述
    在这里插入图片描述
  5. 通过向量元素的乘法来屏蔽标签请求,并且将其乘以一个 α \alpha α来进行两个loss的平衡。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

Personalized-policy Learning

对于一个新孩子,我们假设在一段时间内可以访问多个交互会话。然后,我们从组级策略开始,提供初始的参与度评估,但也要选择需要专家标记的“困难”视频,并用于针对目标儿童个性化策略。
在这里插入图片描述

Experiments

Dataset

  1. 43个4-6岁的孩子,从12所幼儿园招募。
  2. 5秒的视频片段,请出色的专家进行分情况。

Data Processing and Evaluation Setting

  1. 计算每帧CNN特征从目标视频的每一帧,每隔1秒取平均值。
  2. 然后当作TC-DQL模型的LSTM的输入。
  3. 为了评估模型,我们将这些clip分成训练,验证和测试。

Compared Methods

  1. CNN -> LSTM -> fcL -> softmax
  2. 传统的深度网络DNN-MV(CNN -> fcL -> soft-max)

Results

combined loss(Bellman + cross-entropy)比没有cross-entropy的效果要好很多。原因是后者缺少动作空间的约束。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值