麻省理工学院(Massachusetts Institute of Technology)开发出一种人机接口,用户只需在心中默念,不需实际说话,计算机就能将其解读成文字。
智能增强装置
这套系统被命名为 AlterEgo ,是由可穿戴装置及计算机系统组成。电极装置接在下巴及脸部,以便接收内心默念所触发的神经肌肉讯号。这个装置还包括一对骨传导耳机,这种耳机没有耳塞,以便在不打断用户交谈的情况下传递信息。 在一项实验中,受测者使用该系统默念对手在西洋棋中的动作,并以耳机听取计算机的策略。领导此系统研发的 MIT 媒体实验室(MIT Media Lab)研究生卡普(Arnav Kapur)表示:「我们的想法是,我们是否能拥有一个更内在的运算平台,用某种方式结合人类和机器,并感觉像是我们自我意识的内部扩展。」卡普的论文指导教授派蒂‧梅斯(Pattie Maes)博士认为,手机和数字装置在日常使用上容易令人分心。如果你想查看相关信息,必须先找到手机,输入密码,打开应用程序,再输入一些关键词搜寻。这些动作都会让注意力从当前的环境转移到手机上。因此,梅斯博士和学生长期以来一直尝试寻找新的体验类型,希望能建立一套智能增强(intelligence augmentation)装置,让人们使用与过去不同的方法,但仍然可以从原有的手机和数字装置得到相关信息及服务。
实验方法
研究团队发现,默读(subvocalization)在人机界面上有很大的发展性。研究人员首先必须确定脸部哪些位置有最可靠的神经肌肉讯号来源。因此他们进行了一些实验,要求受测者将同一系列的单词默读 4 次,受测者脸部不同位置的 16 个电极会接收每次默读的讯号。研究人员撰写程序来分析收集到的数据,发现 7 个特定位置电极的讯号始终能区别默读的单词。因此设计出一种可穿戴装置的原型,这个原型像电话耳机一样缠绕在脖子后方,并具有触手状的弯曲附属物,在嘴巴两侧并沿着下巴的 7 个位置接触脸部。选定了电极位置之后,研究人员用两种方法收集数据,以进行一些有限词汇(每个词汇大约 20 个单词)的计算工作。一种是数学运算,其中用户会默念加法或减法问题。另一种是西洋棋,用户使用标准的象棋编号系统,以默念方式报告旗子的移动。然后,使用深度学习网络分析特定肌肉神经讯号和及特定单词之间的相关性。
准确率约为 92%
研究人员利用可穿戴装置原型进行了一项可用性测试,在这项研究中,该系统的平均转录准确率约为 92%。但是卡普认为,系统性能应该能随着更多的训练数据而获得改善,这些训练数据能在日常使用中收集。虽然他没有统计数据,不过卡普预估,经过完整训练的系统,其准确性会高于可用性测试的结果。研究人员目前正在收集大量更精细的对话资料,希望能用更广泛的词汇量来训练系统。卡普表示:「我们正在收集资料,结果看起来不错,我认为我们有一天会实现更全面的人机对话。」
应用前景
曾负责眼镜研发的乔治亚理工大学(Georgia Institute of Technology)教授塔德·斯塔纳(Thad Starner)博士认为,这种装置其实有其他真正有潜力的用途。例如,在机场停机坪指挥飞机的地勤人员,他们戴着耳罩,身旁都是飞机噪音,在这种环境下,通常无法像平常一样用声音进行良好的沟通。还有航空母舰的飞行甲板,甚至发电厂或印刷厂这些有大量机器设备的地方。而且在这些高噪音环境中工作的人,通常都穿着一些防护装备。此外,这种装置也能帮助无法正常发声的身障人士,例如口腔癌病患因为切除了部分颌骨而无法说话,如果使用这种装置,就能使用语音合成器进行口语表达。