“沃森”来了:大数据原来可以这样玩儿



最近重温了部电影,威尔史密斯主演的《I,Robot》。在故事中的时代,地球上每十五个人就拥有一台人能智能机器人,从工作助理到家庭保姆,机器人渗透进人类生活的方方面面,它们不仅成为人类的得力工具,更成为人类家庭的一份子。片中的机器人能够与人类交流,理解人类意图,甚至最终进化到能够独立思考,拥有人类的思想。



这让笔者想到了IBM的“沃森”人工智能计算机,虽然目前沃森和片中的智能机器人还有着不小的差距,但沃森和这些智能机器人有着相似的地方:能够识别人类自然语言,运用人类思维特征来表达意思和作出决策——IBM将这种原则称之为“认知计算”。







结合时下最为热门的大数据趋势,这种“认知计算”方式为[url=http://vdisk.weibo.com/s/CbiudO9vYtIqA]大数据应用[/url]和分析提供了新的途径,试想一下,当我们对着计算机说上几句话,就能得出最想要的结果,比如“我们该在哪里开设下一家店?我去哪能买到最便宜的衬衫?这样的症状应该如何诊断?…”看上去这像是科幻电影中的桥段,但事实上这是大数据及分析所追求的一种终极目标。



目标很遥远,但沃森的问世让我们看到了目标的雏形。近日,IBM又宣布将把“沃森”应用于云环境的开发平台,开放API,让企业能够开发自家的“沃森”App,从而构建起“沃森”生态圈,将“沃森”应用到更广泛的领域。此外,IBM还建立了一个“沃森”内容库,供应商可以为沃森提供内容,包括通用和专用的信息,如医疗保健等。



开放“沃森”API、建立生态系统,沃森又将大数据的终极目标向前推进了一大步。



“沃森“是谁?它怎么工作?



将人工智能计算机以IBM创始人的名字来命名,足见IBM对“沃森”寄予厚望。



沃森诞生于IBM在2006年启动的一个有关“认知计算”的研发项目,期间,IBM并没有透露太多的消息。2011年2月,沃森首次公开亮相,在美国电视节目《危险边缘》中战胜人类冠军而名声大噪。在节目中,沃森能够分析和理解人类语言,能够准确的得出答案,并展现出比人类更快的答题速度,这不禁让人惊呼,机器代替人脑的时代要来临了么?



这并不是机器首次战胜人类,早在1997年,IBM超级计算机“深蓝”在国际象棋赛中战胜了当时的世界冠军卡斯帕罗夫,成为第一台战胜人类的智能电脑。尽管都是人工智能的产物,但“沃森”和“深蓝”有着巨大的不同:“深蓝”存储着数量有限的国际象棋走法,通过数据规则来预测象棋的走法,实际上“深蓝”所处理的还是比较明确的机器语言,而“沃森”大有不同,它所处理的是人类的自然语言。



和明确的机器语言相比,自然语言对一台机器来说是非常不明确的,因为它有着无限种的表达方法。IBM系统与科技部Power Systems全球实验室服务总监Ian Jarman先生举过这样一个例子:我们知道,爱因斯坦出生在德国乌尔姆,计算机也能够识别这种结构化的数据;但如果换成自然语言,比如“有一天,Otto从乌尔姆的诸多城市景致图画之中,选择了一幅水彩画寄给爱因斯坦,作为对他出生地的纪念”,计算机就难以回答爱因斯坦到底出生在哪里。



沃森在《危险边缘》中所表现出来的,是超强的对自然语言的理解能力,当然,要得出准确的结果,仅仅有对自然语言的理解还是不够的,还需要从大量的结果中筛选出最为合适的。Ian Jarman先生曾解释过沃森的工作原理:分析问题和主题——从答案来源中生成假设——从证据来源中给假设和证据评分——合并和排名置信度计算——得出具有置信水准的答案。



通俗来说,沃森得出正确结果的关键是提出以证据为基础的假设,如果你提一个问题的话,计算机理解了会产生很多的答案,沃森会收集一些证据来支持这些答案,然后根据对不同答案的评分作出最好的选择。另外沃森还具备适应和学习的能力,沃森可以进行人机对话,它会吸收人们给予它的新信息,对它所作的决定或者答复加以修改和改进。




NLPIR 2014
大会:汉语分词系统NLPIR 2014发布暨ICTCLAS用户交流大会

汉语分词系统NLPIR(前身ICTCLAS)从2000年诞生以来,历时14年,全球用户突破30万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名,已经成为中文信息处理领域标杆性的工作。ICTCLAS创始人张华平博士倾力打造,即将推出的NLPIR2014版,是迄今为止最大的一次更新,在汉语分词体系架构下增加了对英文词法分析的支持,可以自动识别英文词汇的原型、词性标注、命名实体与关键词;并在当前汉语词法分析的基础上,实现了文档的完整语义分析,自动提取文档的人名、地名、机构名、文章作者、发布的媒体、关键词与摘要,是当前中文信息处理的必备神器,值得期待!

我们即将召开NLPIR2014发布暨ICTCLAS用户大会,由北京理工大学大数据搜索挖掘实验室主办,计算机世界与大数据论坛联合承办。张华平博士诚邀历年来所有支持我们前行的ICTCLAS用户,中文分词及中文信息处理的技术爱好者莅临参加,分享中文语言智能理解的美妙。届时,张华平博士将亲自讲解NLPIR2014背后的技术原理与最新进展,并由资深工程师在不同操作系统不同开发语言下NLPIR的实训技巧,同时还有不同背景的资深用户分享他们的使用开发经验。

在线报名:http://118.192.14.52/bigdatatrain/bm.jsp(请注明NLPIR2014;场地有限,只接收前100名

基本信息

会议形式

(a) PPT算法讲解;

(b) NLPIR2014系统演示与实际开发操作;

(c) 针对学员具体需求的互动交流会

(d) 提供专属U盘:保护NLPIR2014的演示系统、各类试用的API以及新版开发手册;

会议时间

12月21日上午9:00-12:00,下午13:30-17:00 ( 17:00-18:00 开放式讨论答疑 )

门票费用

(a)1400 (包含门票,NLPIR2014演示系统、开发包与文档, U盘,工作餐,赠送由张华平博士亲笔签名的《大数据搜索与挖掘》专著);

(b) 12月10日前缴费优惠价1300元;老学员或同单位三人以上报名九折优惠;全日制学生凭学生证会费优惠价格980元,不含发票。

(c)名额有限,参会者需在参会前提前购买门票。

(d)差旅及食宿费用自理。

与会嘉宾

主讲人:张华平:NLPIR(ICTCLAS)创始人与开发者,北京理工大学大数据搜索挖掘实验室主任,博士,副教授

主持人:赵燕平:北理工经管学院教授,北京理工大学大数据搜索挖掘实验室副主任

特邀ICTCLAS典型用户嘉宾待定(将包括跨国企业、金融、政府机关、科研院所、投资与互联网等代表性用户)

会议地址

北京理工大学理工国际交流中心

在线报名:http://118.192.14.52/bigdatatrain/bm.jsp(请注明NLPIR2014;场地有限,只接收前100名

ICTCLAS创始人张华平博士简介

2005年博士毕业于中科院计算所,研究方向为:微博计算、自然语言处理、信息检索与信息安全、大数据搜索与挖掘。曾先后获得2010年度钱伟长中文信息处理科学技术奖一等奖,中科院院长优秀奖、中科院计算所所长特别奖,中科院计算所“百星计划”首批入选者。张华平作为课题组长主持开发了国家自然科学基金、863、973、242等科研课题十余项,发表《大数据搜索与挖掘》《信息检索:算法与启发式规则》《自然语言理解》等专译著3部,所研制的ICTCLAS分词系统已经向国内外的企业和学术机构颁发了三十万多份授权,在学术界和产业界得到了广泛的应用。并作为特邀技术专家,先后在中央电视台、全国网络侠客行大会、全球大数据技术峰会、中国网络科学大会上做大数据相关的主题演讲,广受好评。

会议日程

时间

讲师

环节

主要内容

8:00-9:00

各位参会人员

会议报到

签到,领取各项资料。

9:00-9:20

赵燕平教授

大会开幕式

开幕式致辞,嘉宾与学员介绍

9:20-09:50

张华平博士

NLPIR2014发布

1)     NLPIR2014功能展示:分词、词性标注、命名实体识别、新词识别、英文分析、关键词提取;

2)    NLPIR2014开发包介绍

09:50-10:10

 

合影留念及茶歇

 

10:10-12:00

张华平博士

NLPIR2014汉语分词关键技术及最新进展

1.  ICTCLAS的层叠隐马分词模型(汉语分词、未登录词识别、词性标注)

2.   ICTCLAS的词典管理专利算法:完美双数组TRIE树;

3.  新词识别与关键词提取算法原理;

4.  NLPIR2014英语词法分析技术;

12:00-13:30

 

工作午餐

 

13:30-15:00

张华平博士

康肖钰硕士生

张冰波硕士生

NLPIR2014汉语分词开发包使用实训

1.    NLPIR2014 C/C++语言调用实训

2.    NLPIR2014 Java语言调用实训

3.    NLPIR2014 Linux调用实训

4.    NLPIR2014 高级编程实训(多线程安全、用户自适应分词、python调用、关键词提取等)

15:00-15:30

朱勇高级工程师

NLPIR示范应用:黄金眼Web大数据搜索与挖掘平台

主要介绍利用NLPIR系统开发的黄金眼Web大数据搜索与挖掘平台,展示主要功能与背后的实战应用经验,目前已经应用于工信部、总参、财经杂志等单位。

15:30-16:00

姜伟(北京外事办信息中心主任)

NLPIR示范应用:政务公文主题词提取系统

主要介绍利用NLPIR系统开发的政务公文主题词系统,历经十余年,目前已经应用于大部分政府机关。

16:00-16:30

罗文川(缔元信CTO)

NLPIR示范应用:缔元信网站统计数据挖掘与应用

主要介绍缔元信利用NLPIR系统开发的互联网网站统计数据挖掘与应用,是目前网站统计方面权威的机构。

16:30-17:00

待定

 

 

17:00-18:00

 张华平博士

交流沙龙

 可与ICTCLAS创始人张华平博士直接交流讨论


名额有限,先到先得,参会报名热线:

张老师 13681251543    Email: zhangjie@bigdatabbs.com

官网支持:http://ictclas.nlpir.org

在线报名:http://118.192.14.52/bigdatatrain/bm.jsp(请注明NLPIR2014;场地有限,只接收前100名



转载于:https://my.oschina.net/u/1160813/blog/180826

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值