从硅谷到北京,大数据的话题正在被传播。随着智能手机以及“可佩带”计算设备的出现,我们的行为、位置,甚至身体生理数据等每一点变化都成为了可被记录和分析的数据。以此为基础,“反馈经济”(Feedback Economy)等新经济、新商业模式也正在开始形成
舍恩伯格教授这本《大数据时代》,是我看到的最好的大数据著作,不管对于产业实践者,还是对于政府和公众机构,都是非常具有价值的。
如今,一个大规模生产、分享和[url=http://vdisk.weibo.com/s/CbiudO9vYtIqA]应用数据[/url]的时代正在开启。正如维克托教授所说,大数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下。而发掘数据价值、征服数据海洋的“动力”就是云计算。互联网时代,尤其是社交网络、电子商务与移动通信把人类社会带入了一个以“PB”(1024TB)为单位的结构与非结构数据信息的新时代。在云计算出现之前,传统的计算机是无法处理如此量大并且不规则的“非结构数据”的。
以云计算为基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、高速、多变化的终端数据存储下来,并随时进行分析与计算。大数据与云计算是一个问题的两面:一个是问题,一个是解决问题的方法。通过云计算对大数据进行分析、预测,会使得决策更为精准,释放出更多数据的隐藏价值。数据,这个21 世纪人类探索的新边疆,正在被云计算发现、征服。
《大数据时代》列举了众多在公共卫生、商业服务领域大数据变革的例子。一旦“不再追求精确度,不再追求因果关系,而是承认混杂性,探索相关关系, 思维转变过来,数据就能被巧妙地用来激发新产品和新型服务”。数据正成为巨大的经济资产,成为新世纪的矿产与石油,将带来全新的创业方向、商业模式和投资机会。
庞大的人群和应用市场、复杂性高、充满变化,使得中国成为世界上最复杂的大数据国家。解决这种由大规模数据引发的问题、探索以[url=http://vdisk.weibo.com/s/CbiudO9vYtIqA]大数据[/url]为基础的解决方案,是中国产业升级、效率提高的重要手段。数据挖掘不仅能够成为公司竞争力的来源,也将成为国家竞争力的一部分。联系到我国现代化所面临的种种问题以及教育、交通、医疗保健等各方面挑战,通过大数据这种创新方式来解决问题,创建新的产业群,实现“中国制造到中国创造”的改变,意义就更大。
“大数据”发展的障碍,在于数据的“流动性”和“可获取性”。美国政府创建了Data.gov 网站,为大数据敞开了大门;英国、印度也有“数据公开”运动。中国要赶上这样一场大数据变革,各界应该首先开始尝试公开数据、方式与方法。如同工业革命要开放物质交易、流通一样,开放、流通的数据是时代趋势的要求。《大数据时代》一书也提到了数据拥有权、隐私保护等问题,但相比较来看,新科技可能带来的改变要远远大于其存在的问题。
本书的译者周涛教授是我国最年轻有为的大数据专家。这位27岁的天才型教授,数年来一直带领我国学术界在大数据研究上向国际一流看齐。更可贵的是,他不仅做研究,也关注着研究成果的商业化及传播。这部译著就是他努力的成果。
现代历史上的历次技术革命,中国均是学习者。而在这场云计算与大数据的新变革中,中国与世界的距离最小,在很多领域甚至还有着创新与领先的可能。只要我们以开放的心态、创新的勇气拥抱“大数据时代”,就一定会抓住历史赋予中国创新的机会。
NLPIR 2014大会:汉语分词系统NLPIR 2014发布暨ICTCLAS用户交流大会
汉语分词系统NLPIR(前身ICTCLAS)从2000年诞生以来,历时14年,全球用户突破30万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名,已经成为中文信息处理领域标杆性的工作。ICTCLAS创始人张华平博士倾力打造,即将推出的NLPIR2014版,是迄今为止最大的一次更新,在汉语分词体系架构下增加了对英文词法分析的支持,可以自动识别英文词汇的原型、词性标注、命名实体与关键词;并在当前汉语词法分析的基础上,实现了文档的完整语义分析,自动提取文档的人名、地名、机构名、文章作者、发布的媒体、关键词与摘要,是当前中文信息处理的必备神器,值得期待!
我们即将召开NLPIR2014发布暨ICTCLAS用户大会,由北京理工大学大数据搜索挖掘实验室主办,计算机世界与大数据论坛联合承办。张华平博士诚邀历年来所有支持我们前行的ICTCLAS用户,中文分词及中文信息处理的技术爱好者莅临参加,分享中文语言智能理解的美妙。届时,张华平博士将亲自讲解NLPIR2014背后的技术原理与最新进展,并由资深工程师在不同操作系统不同开发语言下NLPIR的实训技巧,同时还有不同背景的资深用户分享他们的使用开发经验。
在线报名:http://118.192.14.52/bigdatatrain/bm.jsp(请注明NLPIR2014;场地有限,只接收前100名)
基本信息
(a) PPT算法讲解; (b) NLPIR2014系统演示与实际开发操作; (c) 针对学员具体需求的互动交流会 (d) 提供专属U盘:保护NLPIR2014的演示系统、各类试用的API以及新版开发手册; | |
会议时间 | 12月21日上午9:00-12:00,下午13:30-17:00 ( 17:00-18:00 开放式讨论答疑 ) |
门票费用 | (a)1400元 (包含门票,NLPIR2014演示系统、开发包与文档, U盘,工作餐,赠送由张华平博士亲笔签名的《大数据搜索与挖掘》专著); (b) 12月10日前缴费优惠价1300元;老学员或同单位三人以上报名九折优惠;全日制学生凭学生证会费优惠价格980元,不含发票。 (c)名额有限,参会者需在参会前提前购买门票。 (d)差旅及食宿费用自理。 |
与会嘉宾 | 主讲人:张华平:NLPIR(ICTCLAS)创始人与开发者,北京理工大学大数据搜索挖掘实验室主任,博士,副教授 主持人:赵燕平:北理工经管学院教授,北京理工大学大数据搜索挖掘实验室副主任 特邀ICTCLAS典型用户嘉宾待定(将包括跨国企业、金融、政府机关、科研院所、投资与互联网等代表性用户) |
会议地址 | 北京理工大学理工国际交流中心 |
在线报名:http://118.192.14.52/bigdatatrain/bm.jsp(请注明NLPIR2014;场地有限,只接收前100名)
ICTCLAS创始人张华平博士简介
2005年博士毕业于中科院计算所,研究方向为:微博计算、自然语言处理、信息检索与信息安全、大数据搜索与挖掘。曾先后获得2010年度钱伟长中文信息处理科学技术奖一等奖,中科院院长优秀奖、中科院计算所所长特别奖,中科院计算所“百星计划”首批入选者。张华平作为课题组长主持开发了国家自然科学基金、863、973、242等科研课题十余项,发表《大数据搜索与挖掘》《信息检索:算法与启发式规则》《自然语言理解》等专译著3部,所研制的ICTCLAS分词系统已经向国内外的企业和学术机构颁发了三十万多份授权,在学术界和产业界得到了广泛的应用。并作为特邀技术专家,先后在中央电视台、全国网络侠客行大会、全球大数据技术峰会、中国网络科学大会上做大数据相关的主题演讲,广受好评。
会议日程
时间 | 讲师 | 环节 | 主要内容 |
8:00-9:00 | 各位参会人员 | 会议报到 | 签到,领取各项资料。 |
9:00-9:20 | 赵燕平教授 | 大会开幕式 | 开幕式致辞,嘉宾与学员介绍 |
9:20-09:50 | 张华平博士 | NLPIR2014发布 | 1) NLPIR2014功能展示:分词、词性标注、命名实体识别、新词识别、英文分析、关键词提取; 2) NLPIR2014开发包介绍 |
09:50-10:10 |
| 合影留念及茶歇 |
|
10:10-12:00 | 张华平博士 | NLPIR2014汉语分词关键技术及最新进展 | 1. ICTCLAS的层叠隐马分词模型(汉语分词、未登录词识别、词性标注) 2. ICTCLAS的词典管理专利算法:完美双数组TRIE树; 3. 新词识别与关键词提取算法原理; 4. NLPIR2014英语词法分析技术; |
12:00-13:30 |
| 工作午餐 |
|
13:30-15:00 | 张华平博士 康肖钰硕士生 张冰波硕士生 | NLPIR2014汉语分词开发包使用实训 | 1. NLPIR2014 C/C++语言调用实训 2. NLPIR2014 Java语言调用实训 3. NLPIR2014 Linux调用实训 4. NLPIR2014 高级编程实训(多线程安全、用户自适应分词、python调用、关键词提取等) |
15:00-15:30 | 朱勇高级工程师 | NLPIR示范应用:黄金眼Web大数据搜索与挖掘平台 | 主要介绍利用NLPIR系统开发的黄金眼Web大数据搜索与挖掘平台,展示主要功能与背后的实战应用经验,目前已经应用于工信部、总参、财经杂志等单位。 |
15:30-16:00 | 姜伟(北京外事办信息中心主任) | NLPIR示范应用:政务公文主题词提取系统 | 主要介绍利用NLPIR系统开发的政务公文主题词系统,历经十余年,目前已经应用于大部分政府机关。 |
16:00-16:30 | 罗文川(缔元信CTO) | NLPIR示范应用:缔元信网站统计数据挖掘与应用 | 主要介绍缔元信利用NLPIR系统开发的互联网网站统计数据挖掘与应用,是目前网站统计方面权威的机构。 |
16:30-17:00 | 待定 |
|
|
17:00-18:00 | 张华平博士 | 交流沙龙 | 可与ICTCLAS创始人张华平博士直接交流讨论 |
名额有限,先到先得,参会报名热线:
张老师 :13681251543 Email: zhangjie@bigdatabbs.com
在线报名:http://118.192.14.52/bigdatatrain/bm.jsp(请注明NLPIR2014;场地有限,只接收前100名)