沃森超级计算机应用,自然语言处理对于IBM超级计算机沃森(Watson)意味着什么?...

这几天估计很多人都在关注IBM超级计算机沃森(Watson)在美国最受欢迎的智力竞猜电视节目《危险边缘》中的表现,而在经历了三天的比赛后,沃森终于击败了该节目历史上两位最成功的选手肯-詹宁斯和布拉德-鲁特,成为《危险边缘》节目新的王者:IBM超级计算机在智力问答比赛中击败人类。与这场“人机大战”相关的信息中,几乎都会提及“自然语言处理”,毕竟沃森首先需要突破的就是能“理解人类的语言”,这当然是“自然语言处理”的份内之事。而在我看来,IBM沃森看起来更像一个超级的“自动问答”系统,当然,沃森背后凝聚的岂止是“自动问答”,它是一个包含了海量数据处理,机器学习,信息提取,文本分析,知识推理,自动问答等众多技术的的超级“人工智能”结合体。

下午在看到这个消息时,我有一个很强烈的念头,要写一篇“IBM超级计算机沃森(Watson)背后的自然语言处理技术”,当然,即使写出来,也只能是一个旁观者的角度,需要一定的素材去挖掘。不过刚好有一篇相关的新闻给了我一些启示“IBM宣布八所大学参与沃森计算机系统的开发”:

“我们很高兴与这些在其各自领域表现优异的大学和专家们进行合作,他们可帮助推动作为 IBM沃森系统的支柱的问答技术的进步”,IBM沃森项目组负责人 David Ferrucci 博士表示,“《危险边缘》Jeopardy! 挑战的成功将突破与计算技术的处理和理解人类语言的能力有关的障碍,并将对科学、技术和商业带来深远的影响。”

这篇文章下面对于每所大学的贡献都给与了简要的描述,通读下来,会发现“自然语言处理”技术在其中扮演着重要的角色。特别是麻省理工学院:

来自麻省理工学院,由计算机科学及人工智能实验室首席研究科学家 Boris Katz 带领的一个研究团队开创了一个名为 START 的在线自然语言问题回答系统,该系统能够使用来自半结构化和结构化信息存储库的信息来非常准确地回答问题。对沃森系统的根本贡献是将问题细分成简单的子问题,以便迅速收集相关回答,然后将这些回答汇合起来形成最终答案的能力。沃森系统的架构还利用了由麻省理工学院开创的对象-属性-值数据模型,该模型支持对半结构化数据源中的信息进行有效的检索,以回答自然语言问题。

这里面提到的自然语言问答系统START很有意思,有兴趣的读者可以试着问两个问题看看:”What is start" and "How old are you"!

还有一篇关于沃森的文章“存储分析 Watson对于数据存储意味着什么?”也给了我很大的启示,特别是这篇博客的题目,就是模仿这篇文章写的。对于沃森来说,没有高度优化的海量数据存储,其他都将是空中楼阁,而这片文章给出的一些数据还是挺能说明问题的:

Watson是IBM所研发出来的最新的大型智能计算机,其命名源自于IBM的创始人ThomasJWatson。其主要组成为90个跑在Linux系统上的POWER 750服务器,内含2880个处理器内核、4TB的内置存储以及15TB的RAM(也有说法是16TB RAM),这些服务器设备被放在了10个机架上面。值得一提的是,其存储系统所采用的是经过特殊优化的IBM Scale-out架构NAS产品--SONAS。

从IBM博客作者Tony Pearson的文章中,我们能够找到一些非常有意思的东西。Pearson是这样描述Watson的数据处理过程的:"当Watson启动时,其15TB的RAM都会被装载,此后,DeepQA(IBM的智能分析软件)进程从内存载入。IBM Research表示,在实际应用的数据总量中(分析和索引数据,知识库等),用于生成候选答案和评估证据的大小在1TB以内。

当然,这并不是Watson存储的总容量,根据了解,其所挂接的IBM SONAS集群总容量为21.6TB。当然,如同上文所说,其中很大一部分都是分析和索引数据、应用以及知识库。

是的,尽管Watson似乎无所不知,不过其所依靠的基础并非我们所想象的海量数据,而只是一个1TB驱动器所能承载下的内容。

那么“自然语言处理对于IBM超级计算机沃森(Watson)意味着什么?”或者“沃森的胜利对于自然语言处理又意外着什么?”,原打算一个人来写篇总结,后来想想群体的智慧才是无穷的,就把这个问题抛出来了,欢迎大家踊跃发言,特别是沃森背后还有多少不为人知的自然语言处理技术,希望我们能总结的无比透彻!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值