最近重温了部电影,威尔史密斯主演的《I,Robot》。在故事中的时代,地球上每十五个人就拥有一台人能智能机器人,从工作助理到家庭保姆,机器人渗透进人类生活的方方面面,它们不仅成为人类的得力工具,更成为人类家庭的一份子。片中的机器人能够与人类交流,理解人类意图,甚至最终进化到能够独立思考,拥有人类的思想。 这让笔者想到了IBM的“沃森”人工智能计算机,虽然目前沃森和片中的智能机器人还有着不小的差距,但沃森和这些智能机器人有着相似的地方:能够识别人类自然语言,运用人类思维特征来表达意思和作出决策——IBM将这种原则称之为“认知计算”。 结合时下最为热门的大数据趋势,这种“认知计算”方式为[url=http://vdisk.weibo.com/s/CbiudO9vYtIqA]大数据应用[/url]和分析提供了新的途径,试想一下,当我们对着计算机说上几句话,就能得出最想要的结果,比如“我们该在哪里开设下一家店?我去哪能买到最便宜的衬衫?这样的症状应该如何诊断?…”看上去这像是科幻电影中的桥段,但事实上这是大数据及分析所追求的一种终极目标。 目标很遥远,但沃森的问世让我们看到了目标的雏形。近日,IBM又宣布将把“沃森”应用于云环境的开发平台,开放API,让企业能够开发自家的“沃森”App,从而构建起“沃森”生态圈,将“沃森”应用到更广泛的领域。此外,IBM还建立了一个“沃森”内容库,供应商可以为沃森提供内容,包括通用和专用的信息,如医疗保健等。 开放“沃森”API、建立生态系统,沃森又将大数据的终极目标向前推进了一大步。 “沃森“是谁?它怎么工作? 将人工智能计算机以IBM创始人的名字来命名,足见IBM对“沃森”寄予厚望。 沃森诞生于IBM在2006年启动的一个有关“认知计算”的研发项目,期间,IBM并没有透露太多的消息。2011年2月,沃森首次公开亮相,在美国电视节目《危险边缘》中战胜人类冠军而名声大噪。在节目中,沃森能够分析和理解人类语言,能够准确的得出答案,并展现出比人类更快的答题速度,这不禁让人惊呼,机器代替人脑的时代要来临了么? 这并不是机器首次战胜人类,早在1997年,IBM超级计算机“深蓝”在国际象棋赛中战胜了当时的世界冠军卡斯帕罗夫,成为第一台战胜人类的智能电脑。尽管都是人工智能的产物,但“沃森”和“深蓝”有着巨大的不同:“深蓝”存储着数量有限的国际象棋走法,通过数据规则来预测象棋的走法,实际上“深蓝”所处理的还是比较明确的机器语言,而“沃森”大有不同,它所处理的是人类的自然语言。 和明确的机器语言相比,自然语言对一台机器来说是非常不明确的,因为它有着无限种的表达方法。IBM系统与科技部Power Systems全球实验室服务总监Ian Jarman先生举过这样一个例子:我们知道,爱因斯坦出生在德国乌尔姆,计算机也能够识别这种结构化的数据;但如果换成自然语言,比如“有一天,Otto从乌尔姆的诸多城市景致图画之中,选择了一幅水彩画寄给爱因斯坦,作为对他出生地的纪念”,计算机就难以回答爱因斯坦到底出生在哪里。 沃森在《危险边缘》中所表现出来的,是超强的对自然语言的理解能力,当然,要得出准确的结果,仅仅有对自然语言的理解还是不够的,还需要从大量的结果中筛选出最为合适的。Ian Jarman先生曾解释过沃森的工作原理:分析问题和主题——从答案来源中生成假设——从证据来源中给假设和证据评分——合并和排名置信度计算——得出具有置信水准的答案。 通俗来说,沃森得出正确结果的关键是提出以证据为基础的假设,如果你提一个问题的话,计算机理解了会产生很多的答案,沃森会收集一些证据来支持这些答案,然后根据对不同答案的评分作出最好的选择。另外沃森还具备适应和学习的能力,沃森可以进行人机对话,它会吸收人们给予它的新信息,对它所作的决定或者答复加以修改和改进。 |
(a) PPT算法讲解; (b) NLPIR2014系统演示与实际开发操作; (c) 针对学员具体需求的互动交流会 (d) 提供专属U盘:保护NLPIR2014的演示系统、各类试用的API以及新版开发手册; | |
会议时间 | 12月21日上午9:00-12:00,下午13:30-17:00 ( 17:00-18:00 开放式讨论答疑 ) |
门票费用 | (a)1400元 (包含门票,NLPIR2014演示系统、开发包与文档, U盘,工作餐,赠送由张华平博士亲笔签名的《大数据搜索与挖掘》专著); (b) 12月10日前缴费优惠价1300元;老学员或同单位三人以上报名九折优惠;全日制学生凭学生证会费优惠价格980元,不含发票。 (c)名额有限,参会者需在参会前提前购买门票。 (d)差旅及食宿费用自理。 |
与会嘉宾 | 主讲人:张华平:NLPIR(ICTCLAS)创始人与开发者,北京理工大学大数据搜索挖掘实验室主任,博士,副教授 主持人:赵燕平:北理工经管学院教授,北京理工大学大数据搜索挖掘实验室副主任 特邀ICTCLAS典型用户嘉宾待定(将包括跨国企业、金融、政府机关、科研院所、投资与互联网等代表性用户) |
会议地址 | 北京理工大学理工国际交流中心 |
在线报名:http://118.192.14.52/bigdatatrain/bm.jsp(请注明NLPIR2014;场地有限,只接收前100名)
ICTCLAS创始人张华平博士简介
2005年博士毕业于中科院计算所,研究方向为:微博计算、自然语言处理、信息检索与信息安全、大数据搜索与挖掘。曾先后获得2010年度钱伟长中文信息处理科学技术奖一等奖,中科院院长优秀奖、中科院计算所所长特别奖,中科院计算所“百星计划”首批入选者。张华平作为课题组长主持开发了国家自然科学基金、863、973、242等科研课题十余项,发表《大数据搜索与挖掘》《信息检索:算法与启发式规则》《自然语言理解》等专译著3部,所研制的ICTCLAS分词系统已经向国内外的企业和学术机构颁发了三十万多份授权,在学术界和产业界得到了广泛的应用。并作为特邀技术专家,先后在中央电视台、全国网络侠客行大会、全球大数据技术峰会、中国网络科学大会上做大数据相关的主题演讲,广受好评。
会议日程
时间 | 讲师 | 环节 | 主要内容 |
8:00-9:00 | 各位参会人员 | 会议报到 | 签到,领取各项资料。 |
9:00-9:20 | 赵燕平教授 | 大会开幕式 | 开幕式致辞,嘉宾与学员介绍 |
9:20-09:50 | 张华平博士 | NLPIR2014发布 | 1) NLPIR2014功能展示:分词、词性标注、命名实体识别、新词识别、英文分析、关键词提取; 2) NLPIR2014开发包介绍 |
09:50-10:10 |
| 合影留念及茶歇 |
|
10:10-12:00 | 张华平博士 | NLPIR2014汉语分词关键技术及最新进展 | 1. ICTCLAS的层叠隐马分词模型(汉语分词、未登录词识别、词性标注) 2. ICTCLAS的词典管理专利算法:完美双数组TRIE树; 3. 新词识别与关键词提取算法原理; 4. NLPIR2014英语词法分析技术; |
12:00-13:30 |
| 工作午餐 |
|
13:30-15:00 | 张华平博士 康肖钰硕士生 张冰波硕士生 | NLPIR2014汉语分词开发包使用实训 | 1. NLPIR2014 C/C++语言调用实训 2. NLPIR2014 Java语言调用实训 3. NLPIR2014 Linux调用实训 4. NLPIR2014 高级编程实训(多线程安全、用户自适应分词、python调用、关键词提取等) |
15:00-15:30 | 朱勇高级工程师 | NLPIR示范应用:黄金眼Web大数据搜索与挖掘平台 | 主要介绍利用NLPIR系统开发的黄金眼Web大数据搜索与挖掘平台,展示主要功能与背后的实战应用经验,目前已经应用于工信部、总参、财经杂志等单位。 |
15:30-16:00 | 姜伟(北京外事办信息中心主任) | NLPIR示范应用:政务公文主题词提取系统 | 主要介绍利用NLPIR系统开发的政务公文主题词系统,历经十余年,目前已经应用于大部分政府机关。 |
16:00-16:30 | 罗文川(缔元信CTO) | NLPIR示范应用:缔元信网站统计数据挖掘与应用 | 主要介绍缔元信利用NLPIR系统开发的互联网网站统计数据挖掘与应用,是目前网站统计方面权威的机构。 |
16:30-17:00 | 待定 |
|
|
17:00-18:00 | 张华平博士 | 交流沙龙 | 可与ICTCLAS创始人张华平博士直接交流讨论 |
名额有限,先到先得,参会报名热线:
张老师 :13681251543 Email: zhangjie@bigdatabbs.com
在线报名:http://118.192.14.52/bigdatatrain/bm.jsp(请注明NLPIR2014;场地有限,只接收前100名)