英国科技新闻媒体V3日前针对大数据应用,列举了10大有关神话和误区。 大数据是新的术语,但其海量数据分析的概念并不新。许多人,包括Teradata首席技术官StephenBrobst在内认为,对于那些刚开始认识到数据价值的用户,大数据有一些误导。Brobst表示:“大数据是一个长期项目,而不是12个月内,是24~36个月的世间情。” 2、大数据是一种商品 初次接触大数据概念,会认为它是一种特殊形式数据,独立于其他低端数据格式。但事实并非如此。 “你能买一个数据库数据吗?”Gartner杰出分析师DonaldFeinberg说,“是的,你可以买到100台服务器,但是你可以购买大数据吗?因此,这不是一个市场。它只是IT市场的一部分。它价值10亿美元?是的,但它不是一个市场,它甚至不是一种商品,而且还不是新的。” 3、大数据是一个问题 这是一个近似半斤八两性质的公开辩题,但基于其基本形式,大数据具有巨大潜力,即使其没有被正确使用,或者甚至根本没有被使用。 因此,只要数据存在,并且可在未来用一种有效的方法加以处理,就应该有机会存在。也是一个价格昂贵的机会,也许,但仍然有机会。 数据问题是如何通过分析将其转化为清晰和实用的内容,这对企业是一个巨大的挑战。 4、你的数据只对你有用 据Gartner的统计,30%的企业会在未来几年会找到一种方式来套现其所持有的数据。将用户数据出售给出价最高者会引起担心和恐慌,但十有八九都会受到保证或者威胁。 5、人们不关心你如何使用他们的数据 很多人并不喜欢针对性或相关性的广告,但基于大数据驱动的市场营销接下来的重点,这是事实。但当你进入一家商铺,你的手机开始震动,告你在竞争对手店可以更低价格买到同样的产品时,这个时候你就会想到所签约的服务商。 即使是遭受恶评的利用人行为的无害化尝试也是具有一定价值的,其中伦敦的WiFiSmartbin就是一个典型的例子,它保持跟踪人们智能手机MAC地址,在广告风箱显示具有针对性的广告。不久伦敦城市管理公司意识到事情发生后,禁止了该行为,但这也不禁让我们联想到了Facebook所面临的2000万美元的集体诉讼。 6、大数据不会降落在监狱里的你 在这一点上,我们正在涉及一个颇具争议的话题。但Gartner公司的Feinberg确信,将会有相当的数据采集会涉及该领域。 “CIO会有多少人会去坐牢?如果觉得我在开玩笑,那么我就做另外一个大胆性假设:我认为Facebook总裁会在他离开Facebook之前去坐牢。我不知道什么时间,但它会发生。”Feinberg说,无论夸张与否,这都值得思考。 7、政府对你的社交媒体数据不感兴趣 许多人喜欢在Twitter上谩骂政客——反正他们也不会看到,对吗?也许是,但这对于了解选民的意向具有一定的参考价值,Feinberg说。 “奥巴马关心,因为他当选了,如果你看怎样当选的,他的团队使用社交数据和情感分析找出他不能胜出的目标对象。我不是说这他当选的唯一原因,但对于政府部门,社会资料和数据已经变得非常重要。”Feinberg说。 8、你需要新的数据进行分析 当你有一个业务目标之后,且数据仓库被0和1填充满了之后,你就可以分析使用你的数据了。有研究表明,大多数企业已经开始使用大数据获取信息,一旦他们想到了一个问题,就试图通过大数据分析来解决问题。 就像全球物流公司DHL早些时间像V3的记者所解释的那样,尽管此前在包裹投递的每一个阶段都有追踪,但是分析系统建立之前,没有办法利用这些数据。 9、有很多人以使用大数据 错了。这是一个世界性的难题。 Gartner统计数据表明,熟练的数据分析科学家如此缺乏,公司存在75%以上的大数据分析职位空缺。竞争惨烈,换句话说,这是一个很棒的职业。 话虽如此,这也取决于你如何定义一个数据分析科学家。Tesco公司的DuncanApthorp,一位大数据分析师表示,他所存在公司并不要求名牌院校,这意味着普通毕业生也很有机会。 10、大公司都知道他们在做什么 显然不是。根据Gartner对数百家企业案例的研究:“在2016年,财富500强85%企业将无法利用大数据获得竞争优势。” Teradata的高级副总裁TassoArgyros表示:传统商业智能是从一个明确定义的问题开始,对于大数据发现,你有一个起点,但它不是一个业务问题,它是一个业务目标。问题在于你不知道要问什么问题或要使用什么数据,只是说’看这些数据,让我们开始,这通常很容易会失败。 所以,问题的答案是“不”,不是每个人都知道他们在做什么,很难制定出高效使用大数据的策略。 |
汉语分词系统NLPIR(前身ICTCLAS)从2000年诞生以来,历时14年,全球用户突破30万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名,已经成为中文信息处理领域标杆性的工作。ICTCLAS创始人张华平博士倾力打造,即将推出的NLPIR2014版,是迄今为止最大的一次更新,在汉语分词体系架构下增加了对英文词法分析的支持,可以自动识别英文词汇的原型、词性标注、命名实体与关键词;并在当前汉语词法分析的基础上,实现了文档的完整语义分析,自动提取文档的人名、地名、机构名、文章作者、发布的媒体、关键词与摘要,是当前中文信息处理的必备神器,值得期待!
我们即将召开NLPIR2014发布暨ICTCLAS用户大会,由北京理工大学大数据搜索挖掘实验室主办,计算机世界与大数据论坛联合承办。张华平博士诚邀历年来所有支持我们前行的ICTCLAS用户,中文分词及中文信息处理的技术爱好者莅临参加,分享中文语言智能理解的美妙。届时,张华平博士将亲自讲解NLPIR2014背后的技术原理与最新进展,并由资深工程师在不同操作系统不同开发语言下NLPIR的实训技巧,同时还有不同背景的资深用户分享他们的使用开发经验。
在线报名:http://118.192.14.52/bigdatatrain/bm.jsp(请注明NLPIR2014;场地有限,只接收前100名)
基本信息
(a) PPT算法讲解; (b) NLPIR2014系统演示与实际开发操作; (c) 针对学员具体需求的互动交流会 (d) 提供专属U盘:保护NLPIR2014的演示系统、各类试用的API以及新版开发手册; | |
会议时间 | 12月21日上午9:00-12:00,下午13:30-17:00 ( 17:00-18:00 开放式讨论答疑 ) |
门票费用 | (a)1400元 (包含门票,NLPIR2014演示系统、开发包与文档, U盘,工作餐,赠送由张华平博士亲笔签名的《大数据搜索与挖掘》专著); (b) 12月10日前缴费优惠价1300元;老学员或同单位三人以上报名九折优惠;全日制学生凭学生证会费优惠价格980元,不含发票。 (c)名额有限,参会者需在参会前提前购买门票。 (d)差旅及食宿费用自理。 |
与会嘉宾 | 主讲人:张华平:NLPIR(ICTCLAS)创始人与开发者,北京理工大学大数据搜索挖掘实验室主任,博士,副教授 主持人:赵燕平:北理工经管学院教授,北京理工大学大数据搜索挖掘实验室副主任 特邀ICTCLAS典型用户嘉宾待定(将包括跨国企业、金融、政府机关、科研院所、投资与互联网等代表性用户) |
会议地址 | 北京理工大学理工国际交流中心 |
在线报名:http://118.192.14.52/bigdatatrain/bm.jsp(请注明NLPIR2014;场地有限,只接收前100名)
ICTCLAS创始人张华平博士简介
2005年博士毕业于中科院计算所,研究方向为:微博计算、自然语言处理、信息检索与信息安全、大数据搜索与挖掘。曾先后获得2010年度钱伟长中文信息处理科学技术奖一等奖,中科院院长优秀奖、中科院计算所所长特别奖,中科院计算所“百星计划”首批入选者。张华平作为课题组长主持开发了国家自然科学基金、863、973、242等科研课题十余项,发表《大数据搜索与挖掘》《信息检索:算法与启发式规则》《自然语言理解》等专译著3部,所研制的ICTCLAS分词系统已经向国内外的企业和学术机构颁发了三十万多份授权,在学术界和产业界得到了广泛的应用。并作为特邀技术专家,先后在中央电视台、全国网络侠客行大会、全球大数据技术峰会、中国网络科学大会上做大数据相关的主题演讲,广受好评。
会议日程
时间 | 讲师 | 环节 | 主要内容 |
8:00-9:00 | 各位参会人员 | 会议报到 | 签到,领取各项资料。 |
9:00-9:20 | 赵燕平教授 | 大会开幕式 | 开幕式致辞,嘉宾与学员介绍 |
9:20-09:50 | 张华平博士 | NLPIR2014发布 | 1) NLPIR2014功能展示:分词、词性标注、命名实体识别、新词识别、英文分析、关键词提取; 2) NLPIR2014开发包介绍 |
09:50-10:10 |
| 合影留念及茶歇 |
|
10:10-12:00 | 张华平博士 | NLPIR2014汉语分词关键技术及最新进展 | 1. ICTCLAS的层叠隐马分词模型(汉语分词、未登录词识别、词性标注) 2. ICTCLAS的词典管理专利算法:完美双数组TRIE树; 3. 新词识别与关键词提取算法原理; 4. NLPIR2014英语词法分析技术; |
12:00-13:30 |
| 工作午餐 |
|
13:30-15:00 | 张华平博士 康肖钰硕士生 张冰波硕士生 | NLPIR2014汉语分词开发包使用实训 | 1. NLPIR2014 C/C++语言调用实训 2. NLPIR2014 Java语言调用实训 3. NLPIR2014 Linux调用实训 4. NLPIR2014 高级编程实训(多线程安全、用户自适应分词、python调用、关键词提取等) |
15:00-15:30 | 朱勇高级工程师 | NLPIR示范应用:黄金眼Web大数据搜索与挖掘平台 | 主要介绍利用NLPIR系统开发的黄金眼Web大数据搜索与挖掘平台,展示主要功能与背后的实战应用经验,目前已经应用于工信部、总参、财经杂志等单位。 |
15:30-16:00 | 姜伟(北京外事办信息中心主任) | NLPIR示范应用:政务公文主题词提取系统 | 主要介绍利用NLPIR系统开发的政务公文主题词系统,历经十余年,目前已经应用于大部分政府机关。 |
16:00-16:30 | 罗文川(缔元信CTO) | NLPIR示范应用:缔元信网站统计数据挖掘与应用 | 主要介绍缔元信利用NLPIR系统开发的互联网网站统计数据挖掘与应用,是目前网站统计方面权威的机构。 |
16:30-17:00 | 待定 |
|
|
17:00-18:00 | 张华平博士 | 交流沙龙 | 可与ICTCLAS创始人张华平博士直接交流讨论 |
名额有限,先到先得,参会报名热线:
张老师 :13681251543 Email: zhangjie@bigdatabbs.com
在线报名:http://118.192.14.52/bigdatatrain/bm.jsp(请注明NLPIR2014;场地有限,只接收前100名)