ProxiTalk

Yeeweii

已于 2024-05-22 17:02:42 修改

阅读量347

点赞数 4

分类专栏：文章梳理人机交互与普适计算清华大学人机交互与普适计算实验室文章标签：人机交互

于 2024-05-22 09:20:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Yeeweii/article/details/139107389

版权

文章梳理同时被 3 个专栏收录

2 篇文章 0 订阅

订阅专栏

人机交互与普适计算

2 篇文章 0 订阅

订阅专栏

清华大学人机交互与普适计算实验室

2 篇文章 0 订阅

订阅专栏

文章目录

一、解决问题
二、提出方法
三、技术路线
四、研究动力
五、难点
六、相关工作
七、研究内容

一、解决问题

手机语音助手，需要唤醒词才能激活语音

二、提出方法

识别把手机拿到嘴边的动作，用这个动作激活语音助手

三、技术路线

用IMU+接近光识别手机靠近嘴部的动作
用手机的前置摄像头捕获图片数据做动作确认
用两个麦克风估计手机与嘴部的距离

四、研究动力

语音助手使用频率高，超一半的用户都会使用
当前唤醒方式不够便捷，组合式物理按键或者唤醒词
公共场合下，通话时，用户习惯性将手机移送到嘴边，所以当前解决思路的动作为自然动作，符合用户的认知习惯，不需要学习成本

五、难点

如何准确识别将手机拿到嘴边的动作

六、相关工作

移动设备上的动作识别：
利用手机内置的传感器得到的数据，结合分类算法，对日常活动进行分类或者识别
移动设备上的语音输入：
语音助手对隐私有需求，在家中使用语音助手的比例为39%，在公共场合使用语音助手的比例只有6%

七、研究内容

设计多个动作做主观评测，论证当前选用动作的可接受度
- 启发式动作研究，鼓励用户自己设定自己最偏向的触发动作
  - 用户倾向于用哪种触发动作
  - 这些动作的优缺点
  - 每种动作的用户偏好
- 动作的主观评估，从以下四个方面打分：
  - 舒适度
  - 隐私保护
  - 社交认可度
  - 使用偏向
提出动作识别算法，并论证识别效果
- 算法用到的数据
  - IMU
  - 接近光
  - 电容屏
  - 前置摄像头
  - 麦克风
- 具体实施方案
  - 初步用IMU 和接近光传感器检测将手机靠近嘴部的动作
    - 设计正向动作和负向动作
    - 用SVM和RBF实现分类
  - 一旦动作被识别，会打开前置摄像头，进一步确认动作是否发生
    - 用DenseNet对每种动作的图片数据集分类
  - 第二步也确认后，手机语音助手被触发，同时会给出一个震动反馈
  - 手机会在预设的时间范围内检测是否存在有效语音输入，如果没有，会被判断为一个假阳性事件而退出系统
    - 根据音频数据，对远距离收音和近距离收音做分类，涉及到多种环境的数据采集

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
ProxiTalk

用自然动作触发语音助手
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。