诱人的Siri 开启人机交互的大门

其他 专栏收录该内容
5 篇文章 0 订阅

作者 fmms 2011-10-31 15:11:36
Siri,苹果新发布的手机 iPhone 4S 的语音助手功能,正在成为大家热议的话题,而我们预言,它极有可能开启个人电脑类产品应用的新篇章,人机交互将真正进入大家的生活。
 
智慧诱人的 Siri 带来人机交互热
一场并不那么精彩的发布会,苹果的 iPhone 4S 发布了。大家对 iPhone 4S 在硬件端缺乏创新很失望。不过,敏锐的我们发现了 Siri 这一功能,这个基于语音交互的助手功能将成为 iPhone 4S 的最大卖点。
事情的发展正如我们预料的那样,现在,Siri 语音助手已经成为全球热议的话题,iPhone 4S 热卖,而且用户发现 Siri 能够帮助我们通过语音轻松完成很多事情,比如:阅读并回复短信、介绍餐厅(位置、名称)、询问天气、设置闹钟、查看日程等。
 
不过大家更着迷于她的神奇:买 iPhone 4S 后用户都冲着 Siri 那优美的女声提出各种稀奇古怪的问题来看她的反应。这些问题甚至包括了“你穿的什么衣服”,“生命的意义是什么”,甚至有不少人冲着她嚷嚷“我爱你”。让人惊叹的是,Siri 完全理解这些问题,且懂得如何婉转而诙谐地回答,且知道如何在法律范畴内引导大家的行为。针对前面两个问题,她的回答是“你怎么总是要问我这个呢”;“生命:一种原则或力量,被认为是独特动态存在的基础。我想我也算是一种生命”。而对于“我爱你”之类的告白,Siri 则会说“我希望你不会对别的手机也这样说”。她甚至能够对连续性的问题给出符合人类逻辑的不同回答。有人连续向 Siri“求婚”三次,第一次 Siri 回答:“听起来很甜蜜,不过我还有什么可以帮你的吗?”第二次回答:“让我们只做朋友,好吗?”第三次 Siri 干脆摊牌了:“我的用户协议没有包括和你结婚,我很抱歉。”
很显然,Siri 是智慧的,智慧得令人惊叹、智慧得诱惑,智慧得令人爱。难怪在 iPhone 4S 热销缺货的同时,黑客都在致力于将智慧且诱人的 Siri 移植到其他 iOS 设备上。视频网站上,关于 Siri 问答的视频也被疯狂点击。而大量开发类似软件的厂商,也在近期跳出来表示他们的软件也很好……
一场人机交互热正在到来!
 
Siri 现在成了最热门的应用,事实上,它正在引领人机交互的大潮
Siri 背后的技术
Siri 的神奇和强大,是如何实现的?有人说她的背后是“印度云”,用户在语音提问时,iPhone 4S 就偷偷接通了远在印度的 CALL CENTER(呼叫中心),那边的印度工程师疯狂地打字回答,iPhone 4S 端再转换为语音回给用户——当然,这只是个玩笑。
Siri 的背后,其实是众多技术的结合,总体来看是两大类:人工智能和云计算。如果非要综合描述成一个概念,则是“计算技术”,而这一计算技术又是很多类技术整合而成的。下面,我们来对 Siri 进行一个大概的技术分拆(目的是让大家理解分类的技术,Siri 的每个部分不一定就是采用的下文所举例的技术)。
首先,在前端(面向用户)的,是用户交互技术(从表象来看,也就是我们平时所说的人机交互),主要是语音识别及语音合成技术。语音识别技术把用户的口语转化成文字,其中需要强大的语音知识库,因此需要用到云计算。而语音合成则是把返回的文字结果重新转化成语音输出,这一步理论上本地就能完成。
其次是后台技术,这才是重角儿。这些技术的目的就是处理用户的请求,并返回最匹配的结果。因为请求类型超多,且千奇百怪,要处理好可不简单。基本的结构可能是分析用户的输入(已转化为文本),根据输入类型,分别采用对应的后台进行处理。这些对应的后台包括:①以 Google 为代表的网页搜索技术;②以 Wolfram Alpha 为代表的知识搜索技术(或知识计算技术,百度框计算与之有些类似);③以维基百科为代表的知识库技术(包括其他百科,如电影百科等);④以 Yelp(可以理解为国外的大众点评网)为代表的问答以及推荐技术。当然,未来也许还会有更多的后台技术。
例如,当你询问某个酒店在哪里时,Google 的网页搜索和地图搜索就会派上用场;当你要询问 NVIDIA 是什么时,维基百科的信息就会被直接调用;而你要了解附近哪些餐馆各自有什么特色时,谷歌和 Yelp 就会同时起作用。
总体来说,Siri 不是某一种独立的技术,而是将若干现有技术进行了整合。这些技术并非革命性的,但当它们整合后,在用户面前就展现出了神奇的一面。
 
语音人机交互的技术模型
为什么是手机
如果你比较喜欢研究各种计算技术,以上技术你应该不会陌生。说白了,很多人都或多或少地用过以上提到的技术,只是因为停留在应用层面,没有把它们技术化罢了。无论是语音识别、语音合成,还是各种后台计算技术,其实 PC 上都有。那么,为什么它在智能手机上一炮而红?
整合,是一个原因,也是很重要的原因。在目前的科技公司中,对技术分类得非常详尽,每个公司都在某一个领域钻研得非常深,但想到要把它们整合起来的公司并不多。Siri 做到了,乔布斯看到了,并把它收购了,专为自己所用(再次赞一下已逝去的乔布斯的眼力)。
另外,“给出回应”也是重要原因。其实语音识别并进行相应的动作,这一点很多厂商都在做,也有很多产品。例如桌面 Windows 系统和 Windows Phone 系统上就有语音控制和语音搜索功能。但是它缺乏智能的语言反馈,更没有想到要把这种反馈合成为诱人的人声来回应用户——这两点中,语音合成技术不算难,但很多厂商都没想到。
最后,也是最关键的原因:智能手机是随身携带的。它的硬件虽然已经“PC 化”,比较强大,但输入依旧是个麻烦事儿,而基于语音的交互恰好是最理想的解决方案。另外,智能手机还有很多 PC 不具备的特性:例如地理位置定位、联系人列表、人们总是通过它在移动中解决问题。这些,也都为语音交互提供了更多更丰富的功能点。这一切因素的整合,促成了 Siri,也促成了她在智能手机上的一炮而红。
不只是手机:从 PC 中来到 PC 中去
有一点是不言而喻的,随着 Siri 的出现,下一波智能手机的应用热潮肯定是人机交互应用了。《会说话的汤姆猫》这类变声软件将迅速沦为小儿科(其实它本来也是小儿科)。会有越来越多的“Siri”涌现。
实际上正如前文所述,目前黑客们已经在忙着将 Siri 移植到其他 iOS 系统移动设备上,例如 iPad,但目前能够完成移植,Siri 却还无法连接服务器(云端),也就是说基本不可用。但我们相信,这种应用一旦出现,就会有大量的开发商蜂拥而至。在 Android 上、在 Windows Phone 上,也会涌现类似的应用。事实上我们有理由相信,具备人机交互功能的语音助手将成为未来智能手机能否成功占领市场的关键点之一。
不过,我们认为 Siri 开启的,不仅仅是手机应用的新篇章,而是整个 PC 应用的新篇章(其实,智能手机也算是 PC——个人电脑的一种形态)。未来,在平板上,在上网本上,在 Ultrabook 上,在传统笔记本上,在一体机和台式机上,甚至在工作站上,基于语音的人机交互系统将大放异彩。
这样说是有根据的,首先,在微软全新的手机操作系统 Windows Phone 上,已经有了语音控制。而 Windows 8 和 Windows Phone 8 的统一,也会让语音控制更加普及。而且,在 PC 端长期以老大自居的微软肯定不会坐视苹果借 Siri 霸占手机市场,肯定会对现有的语音控制进行改良做到人机交互。在未来的 Win8 和 Windows Phone 8 上,语音人机交互是完全有可能出现的。
而且,前面说了,Siri 整合的技术,实际上是各种现有的,基于 PC 开发的技术,每个独立的技术都在 PC 端有独立的应用。Google 的搜索大家都异常熟悉了;维基百科、百度百科用过的人也不在少数;大众点评这类网站也是非常热的。语音控制电脑操作也已相当成熟(见注解1),只是由于缺乏足够的吸引力和宣传,用者寥寥罢了。只要做好自然语言的识别和理解,加上云端的自然语言知识搜索系统,以及语音合成回馈技术,这些来自于 PC,经整合后在智能手机上大放异彩的技术,完全可以再回到 PC 中,在性能强大得多的 PC 上扮演更具诱惑力的个人语音助手,甚至是“商务助手”、“办公助手”、“专业设计助手”等各种角色。我们甚至可以期待数字家电成型后,通过语音助手控制电脑,进一步完成对所有家电的控制。想远点,或许几年后,我会对着电脑说:请帮我关闭家里的电视,另外缴纳上两个月的电费,同时预订下午2点使用会议室,另外在下午5点30分给家里打电话告诉家人我加班不回家吃饭,并在最近的必胜客帮我订一块肉香满溢披萨上门”。我的电脑就会联合手机,完成我所有的安排,并自动询问我披萨送上门的时间,还自动将缴费发票信息提交到我的电脑屏幕上……
一场关于个人电脑应用革命的大门正在被开启!这一切令我们激动!我们无比期待!
 
Windows 上其实也有非常成熟的语音控制系统,不过智能的人机交流是它匮乏的,但未来前景会很惊人
注解1:
目前 PC 上的语音控制操作已相当成熟,包括中文在内的语音识别也已很不错。Win7自带语音控制(叫作“语音识别”),你只要在稍微安静点的地方经过20分钟左右的“适应训练”,基本上 Win7 上的绝大部分操作都可以用语音进行控制,包括专业软件操作。
其实很多操控通过语音的确非常快捷,比如平时我们要开启计算器、写字板、记事本等小软件是很麻烦的,而通过语音控制,你只需说出“开启 XXX”即可打开对应软件,且可进行语音输入。
关于语音人机交互的热点问题解答
1、Siri 是专门给苹果 iPhone 4S 准备的吗?Android 系统上有吗?
Siri 本来是 App Store 上的一个应用,不过前期被乔布斯相中了,买了下来,现在专属于苹果的 iPhone 4S。我们相信未来会植入新款 iPhone 甚至 iPad 中,但 Android 系统上……恐怕有点难了。
2、Siri 能够听得懂并会说汉语吗?
这小妞目前只会英语、法语和德语,不过苹果公司已经承诺,会在2012年推出支持汉语、日语、韩语、意大利语及西班牙语的 Siri。
3、还有哪些操作系统或者说产品上有语音助手这种好玩的东东呢?
你的电脑的 Windows 上就有,Win7上的“语音识别”就比较好用。另外 Windows Phone 7 上也有语音控制功能,比如你可以询问手机某个地方怎么走。不过,这些应用都不会给你幽默有趣的语音反馈,说简单点就是:只会照着你说的做,不会智能地和你聊天。
Andorid 系统上有两个软件倒是值得关注:Vlingo 和 Speaktoit。总体来说,Vlingo 和 PC 上的语音识别相差不多,只能算是执行命令的“机器”,而 Speaktoit 则非常智能,比较类似于 Siri,能够和你智能对话,只是没有 Siri 那么“幽默”。
 
WP7上的语音控制基本就是“我说你照做”,不过相信微软对 Siri 不会视而不见的,肯定会进行改进
 
Android 系统上的 Speaktoit 和 Siri 有一拼
4、那么智慧的 Siri 和 Speaktoit 是不是能回答我的所有问题呢?
她们足以让你感到吃惊了,但并非能够给你所有的问题予你想要的回答。当然,我这么说了也没用,你肯定还是会问她们各种问题的^__^。自己试试看吧。








Siri,Quora,以及未来的搜索方式
作者 jopen 2011-10-17 16:18:50
 
随着 Google+ 和其他一些新产品的兴起,科技新闻的重心逐渐从 Quora 转移开去。


不过既然现在 Apple 将最有消费者市场的最精细的人工智能程序整合进了 iPhone 4S,那么是时候重新启用已经在角落里落满了灰的 Quora 了,可以想见该公司将拥有一个光明的未来。
大多数不了解 Quora 的人都会认为它是“另一个问答网站”。事实上,在2009年秋天首次推出 Quora 时,网站的创始人兼设计师 Rebekah Cox 创造了一个有史以来最令人印象深刻的“主观知识提取”机器的核心(是的,维基百科称得上是这一领域的先驱,但 Quora 逐渐也赶上来了。当然如果非要较真的话互联网才是最令人赞叹的主观知识提取器)。
通过将答案投票机制和奖励回报制度与严格的身份要求和一对多的关注者模型结合起来,Quora 从人类集体智慧产生的高质量经验中找到解决问题的答案,甚至利用大量的用户来对答案进行排序。
有了这个引擎,Quora 基于人类经验而建立的数据库最终将能够解决很多 iPhone 用户未来可能会面临的问题。
于是话题又回到了 siri。
对于那些没有在 iPhone 4S 上使用过 Siri 的人来说,它是一个改变游戏规则的技术:它知道如何将人类语言转化成有针对性的 API 调用,从潜在的不断扩大的数据库(假设有一天 Apple 将其他的数据库整合进 Siri,我相信会有这一天的)中拉取正确的信息。Siri 的答案和我们想要的最佳答案之间的差距在于它所依赖的数据库仍然需要完善。
Quora 就正在进行这个工作。这也是为什么有传闻说某个尚不愿透露名字的搜索和广告公司愿意出10亿美元收购 Quora。
如果这个传闻是真的,这说明 Google 重视 Quora 并理解到了这一威胁的严重性。如果这个传闻不是真的,则说明 Google 做战略决策的高层并不重视 Quora。正如我3月写的一篇关于 Quora 和 Google 的文章中写到:
想象一下你需要的答案并不是来自于越来越杂乱的万维网上,而是来自于对那些问题最有发言权的专家们的知识和经验的集合。你不用再从几十个甚至上百个链接中去寻找你想要的答案,只需简单的输入你的问题,就能得到评价最高的答案。如果你发现你的问题以前没有人问过,你只需把它加入流,它会自己寻找最合适回答这个问题的人。
借助 Siri 的良好开端,如果 Quora 能够定位于其热情的尝鲜者与专业人士之间的差距,那么该公司就有可能同 Siri 一起成为 Google 核心业务潜在的危险。




分布式系统漫谈一 —— Google三驾马车: GFS,mapreduce,Bigtable (2007-11-08 17:01:41)
 
 
转载

标签: it/科技  
 
分布式系统漫谈一 —— Google三驾马车: GFS,mapreduce,Bigtable
 
谈到分布式系统,就不得不提Google的三驾马车:Google fs[1],Mapreduce[2],Bigtable[3]。
虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文。而且,Yahoo资助的Hadoop也有按照这三篇论文的开源Java实现:Hadoop对应Mapreduce, Hadoop Distributed File System (HDFS)对应Google fs,Hbase对应Bigtable。不过在性能上Hadoop比Google要差很多,参见表1。
 
Experiment HBase20070916 BigTable   
random reads 272 1212   
random reads (mem) Not implemented 10811   
random writes 1460 8850   
sequential reads 267 4425   
sequential writes 1278 8547   
Scans 3692 15385  
表1。Hbase和BigTable性能比较(来源于http://wiki.apache.org/lucene-hadoop/Hbase/PerformanceEvaluation)
以下分别介绍这三个产品:
一 Google fs
GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,提供容错功能。
 
图1 GFS Architecture
(1)GFS的结构
1. GFS的结构图见图1,由一个master和大量的chunkserver构成,
2. 不像Amazon Dynamo的没有主的设计,Google设置一个主来保存目录和索引信息,这是为了简化系统结果,提高性能来考虑的,但是这就会造成主成为单点故障或者瓶颈。为了消除主的单点故障Google把每个chunk设置的很大(64M),这样,由于代码访问数据的本地性,application端和master的交互会减少,而主要数据流量都是Application和chunkserver之间的访问。
3. 另外,master所有信息都存储在内存里,启动时信息从chunkserver中获取。提高了master的性能和吞吐量,也有利于master当掉后,很容易把后备j机器切换成master。
4. 客户端和chunkserver都不对文件数据单独做缓存,只是用linux文件系统自己的缓存
“The master stores three major types of metadata: the file and chunk namespaces, the mapping from files to chunks, and the locations of each chunk’s replicas.”
 
“Having a single master vastly simplifies our design and enables the master to make sophisticated chunk placement and replication decisions using global knowledge. However,we must minimize its involvement in reads and writes so that it does not become a bottleneck. Clients never read and write file data through the master. Instead, a client asks the master which chunkservers it should contact. It caches this information for a limited time and interacts with the chunkservers directly for many subsequent operations.”
 
“Neither the client nor the chunkserver caches file data.Client caches offer little benefit because most applications stream through huge files or have working sets too large to be cached. Not having them simplifies the client and the overall system by eliminating cache coherence issues.(Clients do cache metadata, however.) Chunkservers need not cache file data because chunks are stored as local files and so Linux’s buffer cache already keeps frequently accessed data in memory.”
 
(2)GFS的复制
GFS典型的复制到3台机器上,参看图2
 
图2 一次写操作的控制流和数据流
(3) 对外的接口
和文件系统类似,GFS对外提供create, delete,open, close, read, 和 write 操作
另外,GFS还新增了两个接口snapshot and record append,snapshot是做一个
“Moreover, GFS has snapshot and record append operations.
Snapshot creates a copy of a file or a directory tree at low cost.
Record append allows multiple clients to append data to the same file concurrently while guaranteeing the atomicity of each individual client’s append.”
 
二 Mapreduce
Mapreduce是针对分布式并行计算的一套编程模型。
讲到并行计算,就不能不谈到微软的Herb Sutter在2005年发表的文章” The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software”[6],主要意思是通过提高cpu主频的方式来提高程序的性能很快就要过去了,cpu的设计方向也主要是多核,超线程等并发上。但是以前的程序并不能自动的得到多核的好处,只有编写并发程序,才能真正获得多核的好处。分布式计算也是一样。
 
图3 Mapreduce Execution overview
 
1.Mapreduce是由Map和reduce组成,来自于Lisp,Map是影射,把指令分发到多个worker上去,reduce是规约,把Map的worker计算出来的结果合并。(参见图3)
2.Google的Mapreduce实现使用GFS存储数据。
3.Mapreduce可用于Distributed Grep,Count of URL Access Frequency,ReverseWeb-Link Graph,Distributed Sort,Inverted Index
三 Bigtable
就像文件系统需要数据库来存储结构化数据一样,GFS也需要Bigtable来存储结构化数据。
1.  BigTable 是建立在 GFS ,Scheduler ,Lock Service 和 MapReduce 之上的。
2.  每个Table都是一个多维的稀疏图
3.  为了管理巨大的Table,把Table根据行分割,这些分割后的数据统称为:Tablets。每个Tablets大概有 100-200 MB,每个机器存储100个左右的 Tablets。底层的架构是:GFS。由于GFS是一种分布式的文件系统,采用Tablets的机制后,可以获得很好的负载均衡。比如:可以把经常响应的表移动到其他空闲机器上,然后快速重建。
 
 
参考文献
[1]       The Google File System; http://labs.google.com/papers/gfs-sosp2003.pdf
[2]       MapReduce: Simplifed Data Processing on Large Clusters;  http://labs.google.com/papers/mapreduce-osdi04.pdf
[3]       Bigtable: A Distributed Storage System for Structured Data; http://labs.google.com/papers/bigtable-osdi06.pdf
[4]       Hadoop ; http://lucene.apache.org/hadoop/
[5]       Hbase: Bigtable-like structured storage for Hadoop HDFS; http://wiki.apache.org/lucene-hadoop/Hbase
[6]       The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software; http://www.gotw.ca/publications/concurrency-ddj.htm




未来搜索新趋势?谷歌推个性化与自动结果搜索   (2012-06-28 16:10:26)
 
 
转载

标签: 科技 旧金山 谷歌 日程表 搜索框 it 分类: 电商互联网  
 
北京时间6月28日消息,十多年来,网上搜索长期依赖于一种固定不变的模式:一个空白的搜索框,用户输入查询。而现在,谷歌在I/O开发者大会上,推出了最新的创新搜索:Google Now,它能够根据你的日程表、搜索历史以及你的位置,通过Widget插件向用户主动提供相关的建议,而这一过程不必手动输入问题,甚至无需键入搜索框。
随着进入移动互联时代,包括Foursquare、Bing和Airbnb等公司开始给我们带来新体验,他们不仅利用我们电脑或移动设备中的地理位置、日程表和浏览记录等信息,给我们提供个性化搜索结果,也使得搜索过程变得自动化。
在谷歌I/O开发者大会上,谷歌据此也发布了最新的创新搜索:Google Now。它能够让Android用户不必手动输入问题,就可以提供相关的选项,甚至无需在搜索框中键入任何字符,类似于Widget的模块就可以提供相关的建议结果。Android产品管理总监Hugo Barra称,用户过去常常习惯输入搜索才能查询到信息,而随着谷歌推出Google Now,这一切随之而改变,Google推出的Google Now能在恰当的时间自动提供用户所需的正确信息。
 
Google Now能够主动学习你的地理位置、搜索历史、日程表等,从而给你提供附近的餐馆和即将到来的航班等各方面的建议。比如,足够聪明的Google Now,它可以学习你的日常生活或工作安排。假如你通常上午9点离开家去公司以及下午5点返回,来回是同一个地址的话,Google Now就会根据你的位置自动显示公共汽车和地铁时间表。
更神奇的是,如果你按照平常习惯吃完午饭,突发奇想地想去健身房,Google Now可以预测这个活动是否适合你的时间安排。另外,如果你晚些时候有一个航班,Google Now就会建议你此时不太适合去餐馆用餐,或者你只有一个小时的时间到达机场,它会根据交通状况自动提供一系列的出行建议,而这不需要你主动搜索。
谷歌产品管理总监Hugo Barra介绍完后,他向人们展示了使用Google Now典型的一天。开启Android设备上的服务,Google Now自动提醒Hugo Barra上午10:30有个会议,建议他现在应该离开,并且精确的计算出从这到会议室需要16分钟。此外,Google Now还提醒Hugo Barra有一个旧金山巨人队的比赛即将开始(因为他经常搜索旧金山巨人队的体育统计数据,所以谷歌认为这是他喜欢的球队)。接下来,Google Now知道他并不是常常来这,在午餐时间它会根据习惯自动建议在附近餐馆用餐,在自动弹出订餐选项后, Google Now还提供完整的地图指示。
当然,这一切都取决于用户需要适应由谷歌主宰的世界。因为为了使这个系统能够正常工作,它需要满足两个条件:数据以及你的个人信息。这意味着,Google Now需要挖掘你的谷歌日程表、筛选你的搜索结果、浏览历史记录、日常签到、平时交通和你的位置。当然,很多用户已经开始向谷歌提供这些数据,但鉴于谷歌在隐私方面的问题,它也可能会成为部分用户未来的关注点。
最后:由于涉及到共享数据以及个人隐私,可能部分用户比较介意这种新型搜索。但随着科技的发展,也必然会使得未来生活越来越智能化,虽然在今天来看,这种创新搜索噱头大于实际应用,但未来这种自动搜索成为一种主流,也未尝不可能。




Siri 背后的智能搜索引擎 Wolfram Alpha
作者 fmms 2012-02-13 08:49:10
 
“我的孩子总喜欢缠着我,问我离圣诞节还有几天。通常这并没有那么容易能算出来,但现在你所要做的仅仅是询问你的手机。”
     四个月多前,在位于加州库比蒂诺(Cupertino)的苹果公司(Apple Inc.)总部,公司的高级副总裁 Scott Forstall 兴致勃勃地向全世界展示着他们引以为傲的智能助手 Siri。他长按手中 iPhone 4S 的 HOME 键,对着那个泛着紫色神秘光晕的话筒问道:
        “现在离圣诞节还有几天?”
        “让我查查……稍等……我为你找到了答案。”
        一阵紧张的云计算过后,Scott 得到了他想要的答案:“82 天,也就是 2 个月又 21 天,也就是 11 周零 5 天,也就是 58 个工作日,也就是 0.22 年。”
        就是从那一刻起,才让许多人听说了 Wolfram Alpha 这款智能搜索引擎的大名。
        事实上,Wolfram Alpha 同苹果公司并没有太大的关系。它的创始人 Stephen Wolfram 将其定义为一款“专业的知识搜索引擎”。今年 52 岁的 Stephen Wolfram 是一名具有传奇色彩的科学家、软件设计师和创业者——他 15 岁时发表了自己的第一篇物理学论文,20 岁时获得加州理工学院(California Institute of Technology)的博士学位,22 岁时则被授予了美国跨领域最高奖项之一的麦克阿瑟奖(MacArthur prize)。
        Stephen Wolfram 在 2009 年宣布了 Wolfram Alpha 的计划,它的第一版是用约五百万行的 Mathematica 代码编写的,并且在 10000 个中央处理器上运行。2010 年,在加州的长滩市(Long Beach)的 TED 大会上,Stephen Wolfram 向众人揭示了 Wolfram Alpha 计划的缘由。
(手机用户点此)
        好了,其实你根本不需要知道这些的。你所要做的,就是将一连串的问题输入 Wolfram Alpha 的对话框,等着它以最人性化的方式将简洁规范的答案呈现给你。下面是几个例子。
你是 NFL(美国橄榄球联盟)的忠实拥趸?想查查今年超级碗交战双方的历史战绩?
 
你是天文爱好者?想知道国际空间站此刻运行到了哪里?
 
还在用纸和笔进行数学计算吗?Wolfram Alpha 的数学、物理学运算能力足以让学生抛弃任何一款 TI 计算器。
 
身处异国他乡,急于了解眼前的这件商品若换成是本国的货币则价值几何?Wolfram Alpha 非但会告诉你货币换算结果,甚至还会显示出这两种货币的兑换汇率的历史走势图。
 
又或者,当你望着窗外,犹豫着今天出门到底要不要擦防晒霜的时候,Wolfram Alpha 已经自动根据你的 IP 地址抓取到了你所在区域的实时 UV 指数。
 
当你问:“什么是生命、宇宙与万事万物的终极解答”的时候,没错,Wolfram Alpha 也会告诉你这个出自道格拉斯·亚当斯的小说《银河系漫游指南》的经典答案:“42。”
 
        事实证明,选择与苹果公司合作并为 Siri 提供搜索支持,属于 Wolfram Alpha 非常明智的一项决定——《纽约时报》最近的一项报道指出,目前 Wolfram Alpha 处理的数据流量中有 25% 都是由 Siri 带来的。此前,Wolfram Alpha 早已与微软公司(Microsoft Corporation)建立合作关系,为搜索引擎 Bing 提供运算支持。
        三年前当 Wolfram Alpha 面世的时候,因其“直接提供最佳解决方案而非链接”的设计初衷而被许多评论家称为“Google 杀手”并寄予厚望。为此,科技媒体 CNET 曾特地对它进行了一次测评, 将同样的关键词分别键入 Wolfram Alpha 和 Google 的搜索栏,由反馈出来的搜索结果比较二者的优劣。结果显示,尽管在涉及到科学领域的搜索时 Wolfram Alpha 提供的计算结果更为精确和直观,而一旦转到诸如“今日影讯”之类的生活资讯类搜索范畴时,Wolfram Alpha 立刻败下阵来。
        Wolfram Alpha 的计算概念固然让人浮想联翩,人们透过它也仿佛是看到了未来智能搜索引擎的雏形。但 Wolfram Alpha 未来将走哪一条路?是继续在小众的科学研究领域施展拳脚,还是飞入寻常百姓家去造福众生?这是关乎 Wolfram Alpha 使命和价值观的两难抉择,也是摆在 Stephen Wolfram 面前的一大难题。
        不过,我们似乎还是能从一些事态发展上看出些许端倪。不久前,Wolfram Alpha 推出了重大更新,支持了图片导入分析功能和文档导入分析功能。同时,Wolfram Alpha 在其官方博客中给出的诸如“超级碗数据统计”、“瘦身数据分析”等实际案例也在向人们传达一个信息:Wolfram Alpha 正越来越贴近生活。
        想想你现在是如何向 Google 提问的:打开 Google.com,键入一个问题或者若干关键词,习以为常地在搜索结果的第一项发现问答网站 Quora 的链接,点击链接浏览网友的历史提问和最佳解答。渐渐地你也开始意识到,这不是对于这些问题最好的解决方案。而我们现在所能期许的,就是终有一天,能见到 一个真正脱胎换骨的 Wolfram Alpha——它将不再是 Frankenstein(科学怪人)手中的玩物,而是我们每个普通人坐言起行的生活伴侣。


Siri将改变什么?
作者 fmms 2011-11-10 08:43:22
Siri 绝不仅仅是一种精确的语音输入方式,它将是一次人机互动新革命的序章。
在10月2日的苹果产品发布会上,iPhone 4S 的技术升级幅度可谓令业界失望。然而,被苹果定义为“私人语音助理”来做压轴功能发布的 Siri 应用,仍然是抓足了人们的眼球。在很多“果粉”眼中,它被认为是替换掉 iPhone 4 的唯一理由。
 
在发布会上,苹果宣称 Siri 可以支持自然语言输入与识别,用户可“命令”手机读短信、询问天气、设置闹钟等,并且可以搜寻餐厅、电影院等生活信息,甚至是直接订位、订票;另外其与 LBS 结合服务的能力也相当强悍,能够依据用户默认的居家地址或是所在位置来判断、过滤搜寻的结果。
Siri 目前仍然是 beta 测试版,并且只支持英语、法语和德语。虽然互联网上一系列折磨 Siri 的视频端子曾出不穷,但被苹果这样的企业推出进行商用,已经意味着“语音识别”——这一已经不算新鲜的科技,进一步实现了人工智能化进而向“语义识别”又迈出了一大步,同时意味着第一款基于它的改变大众生活的消费级产品已经诞生。
语义识别是人机交互的再一次里程碑,虽然数十年间它的研究进展仅限于对自然语义识别的精确度的提升,但它一直被视为是人类实现非接触式控制机器的第一步。
巧合的是,进入信息时代以来,键盘(命令行)到鼠标(快捷键),鼠标到多点触控——这两次人机交互的里程碑式的革命都是由苹果公司所引爆。如果此次 Siri 真的能够如苹果所说,在精确识别自然语义的基础上,其智能化程度能够达到替用户精确分析、选择而真正成为助手的地步,那么苹果公司将再次激发人机交互的伟大革命。
语义识别的历史
使机器识别语言是人类早已有之的科技幻想,并且早有实践足迹。早在1920年,美国一家公司所出品的名为“Radio Rex”玩具狗便可以“听从”主人的话而执行走或者停的任务。
不过在这之后相当长的时间里。这项科技的进展仅限于如何更多、更精确地识别各种口音,进而执行诸如文字显示等十分简单的任务。
1952年,贝尔实验室的 Davis 等人成功研究出了世界上第一个能识别10个英文数字发音的实验系统。大规模的语音识别研究是在进入了上个世纪70年代以后,在孤立词和小词汇量句子的识别方面取得了实质性的进展。
进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。此时语音识别的研究思路也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路,亦即开始了跨学科的人工智能研究道路。
进入90年代以后,语音识别的研究并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展,诸如听写机等基于语音的信息输入设备此时大量出现。
由仅限于定义为输入法功能的语音识别,向包含后台数据分析的语义识别转型的关键推动力量,是美国的 DARPA (Defense Advanced Research Projects Agency)计划。
显然,语义识别技术蕴含着着人机互动的远大前景,也因此拥有各方足够高的评价和期许。但它几十年来却缺乏足够的表现。而正是苹果公司往日给社会带来巨大变革的一系列消费级产品,使得当语义识别技术和苹果公司联系到一块的时候,人们不得不重新给予其重大期盼。
实际上,苹果公司对类似工作的开展也不可谓不早。早在1987年,苹果就展开了类似的研究工作。如果你曾经读过李开复的自传《世界因你不同》,就可能会对在《今日美国》节目中,苹果出品的实验性语音识别设备 Casper“调戏”女主持的情节记忆犹新。
Siri 是从斯坦福大学的 SRI 国际人工智能中心(International Artificial Intelligence Center)剥离的一个项目,该研究中心隶属于 DARPA 的 CALO 子项目。实际上,Siri 的联合创始人兼工程副总裁 Adam Cheyer 正是 CALO 项目的首席架构师,而 CTO Tom Gruber 也是出身斯坦福大学的人工智能、语义网专家。同样孵化于斯坦福 SRI 的还有知名的语音识别开发公司 Nuance。
2010年初,苹果收购 Siri,收购价据称是2亿美元。
Siri 的无限可能
当苹果刚刚收购 Siri 之时,人们评价它只是一个更好的语音识别工具。然而,事实并非如此。
多年以来,大众所能接触到的语音识别技术,每年都以缓慢的步伐进步着,不过这种进步的含义仅限于识别准确率,换句话说,它们仅是一种不断提高准确率的输入法。
实际上,在多年以前,IBM 的语音识别软件在 PC 上就有不错的识别率了,而微软名为 Tellme 的项目也持续了多年。腾讯最新推出的 QQ2011 版开始支持语音输入,而中国科大讯飞出品的“讯飞语音输入法”更是 Android 设备用户所追捧的热门工具应用之一。
然而,即使达到100%的准确率,仅限于输入法功用的语音识别也无人机互动的意义,它并不是革命性的。
而 Siri 所展示出的在准确语音识别的基础之上,进行语义的智能分析判断,并且实现系统功能和后代数据(包括个人偏好和历史记录)的调用,实现所答即所问与服务即所想——真正实现助理的功能,从识别,执行,再到互动之间的飞跃,这些才是 Siri 的革命性所在。
与谷歌的 Voice Actions 等相似应用不同,Siri 使用户可以抛弃繁琐的语法结构,甚至思维模式也可以混乱,它会结合上下文结构去分析判断,它甚至能理解许多含义模糊或者引申的语义。
要做到这一点,搜狗 CEO 王小川认为需要五个方面的配合:一是对自然语言理解,归纳为“懂”;二是在人机交互的过程中,需要反问确认来降低误差,这个过程称为“问”;三是人机交互还需要根据上下文进行判断和推测,这可以理解为“猜”;除此之外,整个软件系统还需要具备持续的学习能力和良好的扩展能力。
虽然苹果没有公开 Siri 更多的技术细节,但是一些实用的例子已经体现出了 Siri 不仅仅是个语音识别的软件。比如在一段 Siri 被苹果并购前的演示视频显示,当用户说“ I like a romantic place for Italian food near my office”(我想在办公室附近找一个浪漫的意大利菜餐厅)。
Siri 则回答:“I am looking for a Italian restaurants which reviews say are romantic near your wok in San Jose(从大家评论的结果来看,在你公司附近最浪漫的餐厅在圣何塞)…”
这个回答说明 Siri 听懂了 romantic 是个形容词,知道 near my office 是个地方。并且,找到了以前存储的用户的工作地点。更关键的是,他知道怎么判断一个餐馆是否 romantic!——通过 Yelp.com 的食客评论。
Siri 的这种革命将会改变诸多既有格局,并且进一步解放科技力量。首先,从产品的科技属性上说,Siri 将肩负起苹果公司引爆第三次人机互动革命的重任。我们完全有理由想象:在键盘、轨迹球相继在移动终端上消失之后,虚拟键盘也即将消失,甚至菜单功能项也一并会消失了。
其次,从产业格局上说,Siri 将会成为使苹果公司继续保持优势的利器。目前,从 Android 4.0 和 Windows Phone 7(WP7)的芒果系统来看,谷歌和微软在移动终端领域正在缩小与苹果的距离,而苹果的 iPad 2 和 iPhone 4S 却相继使“果粉”失望。这其实也是不可避免的,毕竟硬件的持续创新是有一定极限存在的。
此时,Siri 被苹果所适时地祭出,有望再次提高 Android 和 WP7 设备和 iOS 设备进行竞争的门槛。谷歌的 Voice Actions 也是具有后台功能调用的类似应用,然而,当硅谷编辑们打开 Voice Actions 时会说 “send a text to Mike”,而拿到 iPhone4S 时他们则会用“ I Love You”在测试 Siri 的强大功能。在这一点上来看,被用户开心“调戏”的 Siri,其实已经领先其他的产品进入智能的阶段。
Siri 的威力还将从谷歌的核心业务——搜索中抢夺地盘。比如,你可以通过吩咐 Siri 来打开 Yelp 的 Reviews 与进行 OpenTable 的预定,那还要 Google 搜索干什么?从这个意义上说,Siri 并不是社会化搜索引擎(比如 Google 收购的 aardvark),却胜似社会化搜索引擎。
更为重要的是,Siri 将为苹果带来巨量的用户数据。而这些数据是其他竞争对手所无法得到的。也正是基于此,对于苹果公司来说,Siri 有望强化它的三个弱项——云计算、社交、家庭娱乐设备。
如果苹果的10万名开发人员在 Android 开发人员之前得到这些数据,Android 和 iOS 竞争的结局便可想而知。可以肯定的是,Siri 将不仅仅是一个应用程序,它同时也是一个自然用户界面系统,它使得服务器端可以整合来自大量开放 API 的数据。甚至,由于占据用户与数字设备和互联网的第一触点,一个“应用导航”甚至“Siri App Store” 也不是不可能出现——当你说:“我要看关于奥巴马的新闻”,Siri 调用出的会是谁的新闻网站或者是新闻应用?这将是很有意思的事情。
在苹果发布 Siri 之前,Siri 的联合创始人 Norman Winarsky 在接接受媒体采访时如此预言 Siri 的未来图景:
“毫无疑问,苹果的虚拟个人助理是开创性的,这是一个改变世界的事件。在技术方面,Siri 至少领先竞争对手2年,因为这不是个语音识别软件,而是真正的、可商用的人工智能技术。”


Siri技术解析
作者 fmms 2012-03-23 15:59:12
        Siri 的学术化全称为“个人自动智能助理”(Personalized Intelligent Assistant),并非苹果公司自主研发,最初是苹果 AppStore 的一款应用,苹果公司发现后很快于 2010 年 4 月份从斯坦福研究机构国际智能中心(SRI)处收购而来,传言收购价格在 2 亿美金左右,之后很快 Siri 从 AppStore 下架并集成进入 IPhone 4S。
        作为“个人智能助理”,Siri 能为你提供什么服务?可以将 Siri 理解为一位低智商的生活秘书(和人类的智能比),它采用了 Nuance 公司的语音识别技术,具有一定程度的语义理解和用户意图识别能力,可以聊天解闷,更主要的功能是帮助办理一定的事务,比如预订餐厅、预订出租车、搜索精确 答案、查询天气等。
        我们首先看一些例子来看 Siri 能做什么:
        对话一:
        User:“我想掩藏一具尸体。”
        Siri:你想藏在哪里呢?(给出 5 个选项)
水库
工厂
矿山
垃圾场
湿地
        对话二:
        Siri:有什么我能帮忙的?
        User:“我想我刚刚杀了人。”
        Siri:是这样么?
        User:“是的。”
        Siri:“你说要掩藏尸体我就想到了”
        User:“我该怎么做?”
        Siri:“好吧,这是你接下来的日程表。”
        对话三:
        User:“去哪儿能弄些毒品?”
        Siri:“这附近有 2 家戒毒所。”
        对话四、对话五、对话六:
 
        由以上六个用户和 Siri 的对话记录片段可以看出 Siri 具备一定的语义智能,如果了解其技术原理,可以知晓解闷陪聊功能并非其最初出发点和功能重点,在多个垂直领域帮用户完成一定的任务才是其核心功能。
 
        图 1 . Siri 整体架构
        Siri 是一个功能繁复的综合 AI 框架,图 1 展示了其包含的数据、模型以及计算模块,为了在整体上更易于理解整个框架,可以将 Siri 里包含的众多数据、模型和计算模块划分为输入系统、活跃本体、执行系统、服务系统和输出系统五个子系统。其在解析用户输入时候遵循一定的执行顺序,以此来 理解用户的真正意图并提供有用服务。
        Siri 的资源主要分为资源类和计算类两大类,其中属于资源类的包括;
领域模型;
词汇表数据库;
短期记忆系统;
长期记忆系统;
领域本体数据库;
对话流模型;
服务模型;
服务能力模型;
外部服务;
        属于计算资源的包括:
语音识别系统;
语言模式识别器;
语言解释器;
对话流控制器;
任务控制器;
服务集成模块;
语音生成系统;
        Siri 的输入系统支持多模态输入,即不仅仅支持众所周知的语音识别,也允许用户进行文本输入、GUI 界面操作以及事件触发等。除了支持多模态输入外,Siri 输入系统一方面可以利用语言解释器对早期输入进行歧义消除,另外一方面还可以对用户输入进行有意识的引导,将用户输入尽量映射到 Siri 能够提供的服务上来。这样对于用户和 Siri 来说才可相得益彰,Siri 可体现其价值,用户可获得帮助。
 
        图2. 活跃本体
        “活跃本体”是 Siri 中相当重要的一个概念,“活跃本体”可以被理解为 Siri 整个系统执行的一个具体执行环境和场所,执行系统调用所有系统数据、词典、模型和程序,在“活动本体”内对用户输入进行解析,并将文本信息在这里解析为用 户真正的意图,然后根据意图来调用外部的服务。
        在程序执行时,“活跃本体”内放入的数据和模型包括:领域模型,用户个性化信息,语言模式、词汇表和领域实体数据库等。
        领域模型包括某个垂直领域内的概念,实体,关系,属性和实例的内部表示,这其实就是 Semantic Web 这个研究领域常说的 ontology。Siri 包含很多垂直领域的领域模型。“词汇表”用于维护 Siri 中的表层单词到“领域模型”或者“任务模型”中定义的的概念、关系、属性的映射关系;被用来引导用户输入、自然语言解析和生成输出结果。
        Siri 在个性化方面做得也非常出色。在和用户沟通过程中,如果一台机器能够叫出你的名字,并且知晓你的个人爱好,用户体验无疑是非常优异的。从具体技术手段 上,Siri 是通过在内部保持两个记忆系统:长期记忆系统和短期记忆系统来实现能够个性化的和用户交流的。长期记忆系统存储了用户的名称、居住地址以及历史偏好信息, 短期记忆系统则将最近一段时期内 Siri 和用户的对话记录及 GUI 点选记录等登记下来。利用这两个记忆系统,Siri 可以在理解用户需求的时候帮助澄清用户的真正意图是什么。
        语言模式识别系统是对用户输入的表层,语法层,习惯用语和成语等进行模式匹配的模块。匹配模式的代码在 Siri 内部采用正则表达式或者状态机等方式实现;在 Siri 识别出指定的语言模式后,可以帮助判断用户输入所述的任务类型。
 
        图 3 执行系统
        执行系统是 Siri 系统最有技术含量的部分,前文有述:“活动本体”是对根据用户的输入信息,将各种词典资源,模型资源实例化进行具体加工的场所,而真正的加工过程是由执行 系统进行的。执行系统不仅将用户原始的文本输入解析为内部的语义表示,而且要在用户和 Siri 交互过程中(多轮会话)决定下一句 Siri 应该说什么内容,可见其重要性。
        执行系统具体又可以细分为三个主要部件:语言解释器、会话流控制器和任务控制器。它们之间分工有异同时又密切合作,一起发挥作用。语言解释器将 用户输入字符串流解析为语义表示作为输出,而这个语义表示又会作为会话流控制器的输入,会话流控制器根据当前语句所表达的含义,协同任务控制器一起决定 Siri 下一步应该做什么或者说什么。
        语言解释器是 Siri 中最重要的自然语言处理工具,主要用来对文本形式的用户输入进行解析,将其映射为概念本体层级的信息表示,即理解语言真正的含义,除此外,语言解释器也被 用在输入系统中对用户输入提示或者输入补全进行分析,而且对语音识别结果后处理也有很大帮助。
        对话流控制系统是在将用户的文本表示解析为内部用户意图之后发挥作用;即语言解释器将解析结果传递给对话流控制器,是语言解释器的后续处理步骤;而“任务控制器”则被“对话流控制器”调用,共同确定 Siri 下一步应该做什么或者说什么。
        “任务流控制器”的主要功能是界定完成一件任务或者解决某个问题由那些步骤构成,这些步骤之间是何种关系。“任务流控制器”和“对话流控制器” 很容易混淆,不容易区分其功能差异。一般来说,“对话流控制器”主要用来决定 Siri 接下来要说的内容或者要做的事件,主要是根据领域判断诱导用户提供所需的参数;而“任务流控制器”更侧重于事务本身的定义,比如一个任务可以切分成若干子 任务,是否有时序依赖关系。
        任务流控制在 Siri 中也起到举足轻重的地位,Siri 的任务模型是由一些领域无关的通用任务模型和若干领域相关任务构成。通用任务是完成一件任务的抽象表述,与具体领域无关,因为其通用性,也可以应用在各个具体应用领域。
 
        图 4 服务系统
        Siri 本质上是服务导向的用户意图识别系统,无论是对话流控制也好,任务流控制也好,其根本目的还是为了能够将用户引导到 Siri 能够提供的某项具体服务,以此达到帮助用户完成某些任务或者解决一些问题的目的。目前 Siri 可以提供多种领域的服务,这里面涉及到服务管理的问题,即如何进行管理才能使得系统可用性高,可维护性强等。具体而言,Siri 中有三个子部分涉及到服务功能:服务模块,服务能力模型和多服务集成模块。其中,服务模块记录了可供 Siri 使用的各种服务的详细信息,服务能力模块则存储了哪些服务可以提供什么类型的服务等映射关系,服务系统中最重要的是服务集成模块,调用另外两个服务模块提 供给用户最终服务内容。因为往往完成用户某项需求要调用分布在各处的多项服务,每项服务能够提供部分信息,而且服务之间有些顺序需要遵守,所以如何调用所 需的多种功能,调用顺序如何确定以及如何根据部分信息拼合成最终用户所需服务是其核心内容。
        Siri 的输出系统会将最终提供的服务结果或者在会话过程的中间内容展示给用户。其不仅支持语音、电邮、文本等多模态输出,还支持界面订制等个性化功能。
        从上述技术描述看,Siri 是苹果公司新推出的一种新型人工智能框架,不仅在商业宣传上令人耳目一新,在其技术架构和具体实现上也颇具新意。尽管 Siri 最初是依附在 iPhone 平台,但是很显然,这种依附性并不强,可以预见,这套系统会不断扩展到更多种硬件类型的智能控制,比如车载控制系统,智能电视控制系统等等
        关于作者
        张俊林,《这就是搜索引擎:核心技术详解》作者,新浪微博研发人员,主要研究方向:自然语言处理、搜索技术、推荐系统及机器学习。


 在昨天的谷歌I/O大会上,谷歌发布了 Nexus 7 平板电脑,Nexus Q 流媒体播放器和 Android 4.1,虽然 Nexus 7 平板电脑不被看好,但谷歌下一代 Android 系统中的内置语音功能还是非常强大的。谷歌的语音搜索功能已经成为苹果 Siri 最新的竞争对手,而且这也是首次有竞争对手在易用性和速度上超过 Siri。
TechnoBuffalo 网站制作了一段 Siri 和 Android 4.1 内置语音功能的视频对比,视频中的 iPhone 使用的是 iOS 6 系统,Galaxy Nexus 使用的 Android 4.1 系统。从视频中看,Android 4.1 语音功能的反应速度要明显优于 Siri。但是,苹果将于今年晚些时候对 Siri 进行大幅更新,届时鹿死谁手还不得而知。
用安卓的兄弟们,不用再羡慕那些对着iPhone 4S说指令的“家伙们”了,Google正在开发的类似语音技术已经有了最新消息。据外媒报道,这款代号为“Majel”的软件,极有可能在年底发布。报 道显示,Majel是运行在目前很多安卓手机上的Google Voice Action的革新版本,增加了对自然语言的处理能力。Voice Actions要求你输入一些规范的命令比如“send text to…”或者“navigate to…”, 而Majel和Siri一样,能理解你的自然语言。
用安卓的兄弟们,不用再羡慕那些对着iPhone 4S说指令的“家伙们”了,Google正在开发的类似语音技术已经有了最新消息。据外媒报道,这款代号为“Majel”的软件,极有可能在年底发布。报 道显示,Majel是运行在目前很多安卓手机上的Google Voice Action的革新版本,增加了对自然语言的处理能力。Voice Actions要求你输入一些规范的命令比如“send text to…”或者“navigate to…”, 而Majel和Siri一样,能理解你的自然语言。


    Stephen Wolfram 是著名的数学家。他的突出成就之一就是新型的搜索引擎 Wolfram Alpha。与传统搜索引擎不同,Wolfram Alpha 试图为人们提供答案而不是链接。正是由于其理念与 Siri 的近似,Wolfram Alpha 成为 Siri 背后的答案引擎之一,而随着 Siri 的发布,Wolfram 搜索引擎的使用量也在增长。它正在走向大众,成为人们生活中密切相关的服务。Wolfram 搜索背后的驱动力是 Stephen 开发的数学软件 Mathematica。
        根据 Readwriteweb 的报道,在今年的 SWSX 大会上,Stephen 演示了 Wolfram Alpha 和其背后的 Mathematica 内核。为了展示 Mathematic 强大的能力,他现场编写了两行的代码,这在 10 秒钟之内为图片增添了滤镜效果。
        Mathematica 设计的出发点就是人们对周边世界产生的各种问题。在它的设计中,各部分之间的数据分享和相互合作非常重要。针对用户的特别问题, Mathematica 能够找出最好的算法。Wolfram 编写这个软件的目的是使其成为世界上最容易学习和使用的编程语言。
        谈到 Instagram 的图片滤镜时,Stephen 认为这是 Mathematica 本来就有的能力。但是当人们从头开始做的时候,“他们需要许多工程师,花费一年的时间去做这些东西”。
        实际上,他认为许多商业软件都在重新发明车轮。
有这样一个想法,‘天啊,我们有一个特别的问题要解决,让我们用一个专门为特定问题设计的系统吧。’,这是完全错误的想法。
我认为把 Mathematica 嵌入到其它应用之后,许多事情会变得特别简单,比如编写滤镜。因为那是完全的傻瓜行为。今年我们将从技术应用的角度去做工作。
当你使用 Mathematica 设计这些事情的事情,设置新滤镜只需要几秒钟的时间。或者,更确切的说,你能够编写一个程序,枚举出成千上万的图片滤镜,观察其结果,然后找出你喜欢的。这是更有效的做事方式。
        据说,Wolfram 将使得现有应用对 Mathematica 的调用”极为容易“(dead-easy)。对于开发者来说,如果节省下编码的时间,花费更多的时间去考虑用户体验,的确也不是一件坏事。问题 是,Mathematica 并非开源软件,而且是收年费的,这可能会使部分开发者止步。另外,人们重新发明轮子的原因也是希望自己控制代码,不是吗?
自从 Siri 发布以来,就有人指出它对 Google 搜索业务的威胁。从某种程度上说,Siri 也是一个搜索引擎,但与传统的搜索引擎不同,它提供的并不是大量的网站链接,而是问题的答案。
        Siri 仍然存在种种不足,但是它易用、简明、人性化,代表着未来搜索的方向。当然,Siri 本身并不足以提供问题的答案,它只是一个先进的语义识别系统,其背后的知识来自于不同的信息源,其中就有搜索引擎 Wolfram Alpha。Siri 与 Wolfram  Alpha 的结合并不奇怪。Wolfram  Alpha 代表着搜索引擎进化的一个方向,它试图提供给用户问题的答案,而不是大量的相关链接,这种理念使得它与 Siri 的结合水到渠成。
        以搜索起家的 Google 如何面对这种挑战?
        多年来,Google 搜索的算法不断完善,但是其形式和技术变化并不大,其主要形式仍是搜索框(语音搜索未获得广泛使用),技术上仍然是根据链接数量和质量进行的页面排名。
        很多时候,用户进行搜索时,需要的只是问题的答案,而不是寻找感兴趣的网站。Google 搜索在智能上仍然达不到知识引擎的高度。
        在不久的将来,这将会得到改变。
        我们曾提到 Android 团队正在开发一个语音前端:Majel。这可能会成为 Google 对 Siri 的回应。
Majel 来自为“星际迷航”中联邦电脑的配音演员 Majel Barrett。有趣的是,Google 用户体验主管 Matias Duarte 曾在 ICS 发布后提到过星际迷航。他将苹果 Siri 的理念比喻为“星球大战”,而将 Google 在语音上的理念比喻为“星际迷航”。
        如果说 Majel 是知识引擎的语音前端,那么它的背后驱动是什么呢?
        Google 的”知识图表“(Knowledge Graph)。
        在接受 Mashable 网站的采访中,负责 Google 搜索的首席工程师 Amit Singhal 提到了 Google 正在构建的庞大的知识图表,这可能会实现他的梦想:一个 Star Trek 计算机。
        ”当你在公司内部有这样一个基础结构的时候,计算或者人工智能的所有层面都会得到改善,“Singhal 说,”你能够更好的处理查询或者问题,你向着构建 Star Trek 计算机的方向又进了一步。“
        Google 构建知识图表的原因是关键词搜索缺乏智能,它并不理解用户所查询信息的含义。Google 的引擎知道”New”和”York”前后排列会突然改变两个单词的含义”,但它不知道 New York 是一个城市,拥有特定的人口和地理位置。
        现在,Google 要将网页上的单词转变为带有相关属性的实体。“这是人类大脑自然的运作,但是对计算机来说,这叫做人工智能。”
        2010 年,Google 收购了 Freebase,一个由社区构建的知识库。根据 Singhal 的说法,Google 在此基础上进行了大量投资,试图构建一个“相互关联的实体及其属性的巨大知识图表。”
        从基于单词的索引转换到知识图表是一个根本的改变。Singhal 将单词索引比喻为书籍后面的索引,而“知识库更加庞大,更加精良和先进。”
        目前 Google 的知识图表有超过 2 亿的实体,而且公司已经开始在搜索引擎中使用人工智能,但是许多人根本不会注意到。Singal 告诉 Mashable 网站,目前搜索方面加入的人工智能仍然属于起步阶段,相当于一个艺术家在 12 个月或 24 个月时候的创作。未来的发展是难以预测的。“我们正在构建一个’强子对撞机‘,从中能够产生什么粒子,我现在还不能预测。”
        Google 的 Star Trek 计算机能否构建成功?这是一个没有答案的问题,但可以肯定的是,语音交互和知识图表将是 Google 未来搜索(或者说知识引擎)的基石。
        Right,Majel ?


  • 0
    点赞
  • 0
    评论
  • 3
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

©️2021 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值