微软研究院亮绝活 三大技术革新人机界面

如果把不同IT厂商新品展示或发布会比作风格和内容各不相同的书,微软亚洲研究院“研究成果媒体开放日”就像是一部让人大开眼界、神经为之亢奋的科幻小说。该活动已成功举办过6次,今年3月29日,微软在众多媒体记者面前翻开了它的第七页。

人机界面的三个问题和四大目标

  本次“研究成果媒体开放日”的主角是王坚博士领导的多通道用户界面组,他们的任务是开发新的人机界面技术,让人机交互,即使用电脑更加容易。

  “用户界面是微软亚洲院首任院长李开复最为重视的研究项目,”微软亚洲研究院现任院长沈向洋博士在本次活动上强调:“比尔·盖茨的梦想也是要让电脑能听会讲、能看会想,方便易用。”

  王坚博士表示:在移动和数字化时代,在人机界面方面需要解决的问题有:如何把人们非数字化的做事方式——如用笔和纸做记录等行为全部转变成数字化的方式;如何把所有内容都实现数字化,并避免再产生非数字化内容——如把电脑中的电子文档打印成为纸质文档;如何用更具移动性的人机交互设备来帮助电脑解脱键盘和鼠标的束缚。

  王坚博士还列举了微软目前在人机界面技术革新方面的目标,即四个“Every”:一是每个打印出来的文档都应该是数码文档;二是每本书都应该是电子书;三是每个显示屏都应该是一个Tablet(如Tablet PC支持书写输入和软件操作);四是每一根笔都应该是数字笔。

  针对这三个问题和四个目标,王坚和他的组员们已经有了解决之道,这就是他们在本次活动上重点展示的新版数字墨水(Digital Ink)技术、万能数字笔(uPen)和基于摄像头的多通道人机交互(Camera-based interaction)。

新版数字墨水技术:不再限于手写输入

  数字墨水原本是Tablet PC的关键技术,它是利用电磁感应笔而非触控笔实现文字/图形手写输入和软件操作的技术。

  经过微软亚洲研究院多通道用户界面组的改进,新版数字墨水技术的功能已进一步扩大,它打破了以住手写技术主要集中于手写文字识别的禁锢,可智能地对手写文档内容进行结构解析及语义理解,能够使无结构的手写笔迹组合变成有结构的手写笔记。通过它,用户还可像编辑Word或Excel文档一样,对输入的文字、图表进行编辑整理、共享、查找管理等操作。可以说,数字墨水已经成为一种与传统的文字、图片、视频及声音等不同的有结构及意义的数据类型。

  尽管数字墨水技术的易用性让键盘和鼠标相形见绌,但王坚称,数字墨水技术并不会取代它们,从输入文字的速度来说,键盘的表现更好。

万能数字笔:让纸质文档变成数码文档

  曾称美国知名技术杂志《麻省技术评论》(MIT Technology Review)誉为“微软魔笔”的万能数字笔从表面上看毫无神奇之处,就像是一根普通的油笔,只是有些粗大。可当微软研究人员用它在一份刚刚打印出的纸质文档上勾勾画画时,一旁的电脑居然自动调出了这份文档的电子版本,微软研究人员在纸质文档上做出的任何输入和修改,其电子版本都会同步显示出来。

  为何万能数字笔能够同时在纸面和电脑上输入信息?这主要功能于它所采用的两项技术:

  一是文档编码技术。通过这种技术打印出的文档已非传统意义上的纸质文档,微软研究人员称其为“数码文档”,它除了含有原来电子文档中的文字或图表信息,在这些信息的下面、纸的表面还印有密密麻麻的淡灰色条纹,这些条纹就如同我们常见的条形码,它记录了电子源文档的关键信息(如名字等),这些条纹还像坐标纸上的坐标一样,把“数码文档”上打印出的文字和图表准确位置进行了标注。

  二是采用了复杂的计算机视觉技术。微软万能数字笔上集成了微型摄像头、压力传感器、蓝牙模块和存储器芯片,它可读取“数码文档”上条纹信息中包含的上述信息,并传回电脑调出相当电子文档进行同步修改。

  据微软研究人员透露,“数码文档”的打印无需特殊的打印机或纸张,不过用户需要安装相应的软件。

  王坚称,微软万能数字笔的研发到目前已进行了四年之久,这次展示用的万能数字笔是微软造出的第116根原型产品。

基于摄像头的多通道人机交互:让电脑游戏有健身功效

  与万能数字笔和数字墨水技术的展示不同,微软研究人员在介绍基于摄像头的多通道人机交互技术搬出了一款名为“潜水者”的小游戏。

  在玩这款游戏时,微软研究人员赤手空拳,并未使用鼠标或键盘,运行这款游戏的电脑上装有摄像头,可将他们的影像采集下来,“投射”到游戏界面上成为带着头盔的“潜水者”,他们可通过活动手和头部来击退和躲避“鲨鱼”的袭击。无论任何人,在玩这款游戏时都必须手舞足蹈,微软研究人员笑称其有“健身”功效,据说盖茨也曾试玩这个小游戏并一次过关。

  这款小游戏的乐趣就来自基于摄像头的多通道人机交互技术,这是一种先进的计算机视觉技术,包括了人脸识别和动作追踪等技术。它改变了依靠传统的游戏杆、鼠标、键盘等输入设备进行人机交互的情况,让人通过摄像头以本来的面目亲切、自然地与机器沟通。

搜索和数字娱乐新技术

  除了上述人机界面方面的新技术,沈向洋博士称,新一代多媒体、网络搜索与数字发掘、无线及网络技术、数字娱乐也是微软亚洲研究院的重点研究领域。在本次“研究成果媒体开放日”上,微软在网络搜索/数字发掘和数字娱乐方面的两项新技术——语音搜索技术和图片浏览软件Photopie也进行了现场展示。

  微软的语音搜索技术虽然也需要输入关键词,但它并不是以关键词的“形”来进行搜索,而是以它的发音来查找相关资料;它要查找的目标也不是文字信息,而是包含了视频和音频文件在内的多媒体信息。

  微软研究人员称,有很多用户,特别是媒体从业者在整理录音时都碰到过这样的问题,即要从录音中寻找其中特定的段落时,只能从头听到尾。有了语音搜索技术后,用户就可通过这些特定段落中含有的关键词对它们进行查找,省时省力。


微软研究人员向与会者介绍Photopie的使用方法

  Photopie看上去则像是一个为Windows XP媒体中心版操作系统设计的全新组件,它可将用户电脑或数码相机存储卡中的所有数码照片通过拍摄时间进行分组排序(一天为一组,每组又可根据当天的不同拍摄时间段再分成若干组)、以微缩图的形式显示在一个窗口中,用户只需通过媒体中心电脑附带遥控器的上下左右四个键就可对这些分组的照片进行滚动、挑选、放大、缩小等操作,与人们常用的、操作烦琐的ACDSee等看图软件相比,Photopie的人机界面显然更加友好。据微软研究人员介绍,这款软件除可安装在电脑中,还可用于配备微软操作系统的掌上电脑和智能手机。 袁超

Trackback: http://tb.donews.net/TrackBack.aspx?PostId=317710

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值