一、解决问题
手机语音助手,需要唤醒词才能激活语音
二、提出方法
- 识别把手机拿到嘴边的动作,用这个动作激活语音助手
三、技术路线
- 用IMU+接近光识别手机靠近嘴部的动作
- 用手机的前置摄像头捕获图片数据做动作确认
- 用两个麦克风估计手机与嘴部的距离
四、研究动力
- 语音助手使用频率高,超一半的用户都会使用
- 当前唤醒方式不够便捷,组合式物理按键或者唤醒词
- 公共场合下,通话时,用户习惯性将手机移送到嘴边,所以当前解决思路的动作为自然动作,符合用户的认知习惯,不需要学习成本
五、难点
- 如何准确识别将手机拿到嘴边的动作
六、相关工作
- 移动设备上的动作识别:
利用手机内置的传感器得到的数据,结合分类算法,对日常活动进行分类或者识别 - 移动设备上的语音输入:
语音助手对隐私有需求,在家中使用语音助手的比例为39%,在公共场合使用语音助手的比例只有6%
七、研究内容
-
设计多个动作做主观评测,论证当前选用动作的可接受度
- 启发式动作研究,鼓励用户自己设定自己最偏向的触发动作
- 用户倾向于用哪种触发动作
- 这些动作的优缺点
- 每种动作的用户偏好
- 动作的主观评估,从以下四个方面打分:
- 舒适度
- 隐私保护
- 社交认可度
- 使用偏向
- 启发式动作研究,鼓励用户自己设定自己最偏向的触发动作
-
提出动作识别算法,并论证识别效果
- 算法用到的数据
- IMU
- 接近光
- 电容屏
- 前置摄像头
- 麦克风
- 具体实施方案
- 初步用IMU 和接近光传感器检测将手机靠近嘴部的动作
-
设计正向动作和负向动作
-
用SVM和RBF实现分类
-
- 一旦动作被识别,会打开前置摄像头,进一步确认动作是否发生
- 用DenseNet对每种动作的图片数据集分类
- 第二步也确认后,手机语音助手被触发,同时会给出一个震动反馈
- 手机会在预设的时间范围内检测是否存在有效语音输入,如果没有,会被判断为一个假阳性事件而退出系统
- 根据音频数据,对远距离收音和近距离收音做分类,涉及到多种环境的数据采集
- 初步用IMU 和接近光传感器检测将手机靠近嘴部的动作
- 算法用到的数据