大数据应用存在的10大神话和误区

英国科技新闻媒体V3日前针对大数据应用,列举了10大有关神话和误区。



       1、大数据是新技术



  大数据是新的术语,但其海量数据分析的概念并不新。许多人,包括Teradata首席技术官StephenBrobst在内认为,对于那些刚开始认识到数据价值的用户,大数据有一些误导。Brobst表示:“大数据是一个长期项目,而不是12个月内,是24~36个月的世间情。”



  2、大数据是一种商品



  初次接触大数据概念,会认为它是一种特殊形式数据,独立于其他低端数据格式。但事实并非如此。



  “你能买一个数据库数据吗?”Gartner杰出分析师DonaldFeinberg说,“是的,你可以买到100台服务器,但是你可以购买大数据吗?因此,这不是一个市场。它只是IT市场的一部分。它价值10亿美元?是的,但它不是一个市场,它甚至不是一种商品,而且还不是新的。”



  3、大数据是一个问题



  这是一个近似半斤八两性质的公开辩题,但基于其基本形式,大数据具有巨大潜力,即使其没有被正确使用,或者甚至根本没有被使用。



  因此,只要数据存在,并且可在未来用一种有效的方法加以处理,就应该有机会存在。也是一个价格昂贵的机会,也许,但仍然有机会。



  数据问题是如何通过分析将其转化为清晰和实用的内容,这对企业是一个巨大的挑战。



  4、你的数据只对你有用



  据Gartner的统计,30%的企业会在未来几年会找到一种方式来套现其所持有的数据。将用户数据出售给出价最高者会引起担心和恐慌,但十有八九都会受到保证或者威胁。



  5、人们不关心你如何使用他们的数据



  很多人并不喜欢针对性或相关性的广告,但基于大数据驱动的市场营销接下来的重点,这是事实。但当你进入一家商铺,你的手机开始震动,告你在竞争对手店可以更低价格买到同样的产品时,这个时候你就会想到所签约的服务商。



  即使是遭受恶评的利用人行为的无害化尝试也是具有一定价值的,其中伦敦的WiFiSmartbin就是一个典型的例子,它保持跟踪人们智能手机MAC地址,在广告风箱显示具有针对性的广告。不久伦敦城市管理公司意识到事情发生后,禁止了该行为,但这也不禁让我们联想到了Facebook所面临的2000万美元的集体诉讼。



  6、大数据不会降落在监狱里的你



  在这一点上,我们正在涉及一个颇具争议的话题。但Gartner公司的Feinberg确信,将会有相当的数据采集会涉及该领域。



  “CIO会有多少人会去坐牢?如果觉得我在开玩笑,那么我就做另外一个大胆性假设:我认为Facebook总裁会在他离开Facebook之前去坐牢。我不知道什么时间,但它会发生。”Feinberg说,无论夸张与否,这都值得思考。



  7、政府对你的社交媒体数据不感兴趣



  许多人喜欢在Twitter上谩骂政客——反正他们也不会看到,对吗?也许是,但这对于了解选民的意向具有一定的参考价值,Feinberg说。



  “奥巴马关心,因为他当选了,如果你看怎样当选的,他的团队使用社交数据和情感分析找出他不能胜出的目标对象。我不是说这他当选的唯一原因,但对于政府部门,社会资料和数据已经变得非常重要。”Feinberg说。



  8、你需要新的数据进行分析



  当你有一个业务目标之后,且数据仓库被0和1填充满了之后,你就可以分析使用你的数据了。有研究表明,大多数企业已经开始使用大数据获取信息,一旦他们想到了一个问题,就试图通过大数据分析来解决问题。



  就像全球物流公司DHL早些时间像V3的记者所解释的那样,尽管此前在包裹投递的每一个阶段都有追踪,但是分析系统建立之前,没有办法利用这些数据。



  9、有很多人以使用大数据



  错了。这是一个世界性的难题。



  Gartner统计数据表明,熟练的数据分析科学家如此缺乏,公司存在75%以上的大数据分析职位空缺。竞争惨烈,换句话说,这是一个很棒的职业。



  话虽如此,这也取决于你如何定义一个数据分析科学家。Tesco公司的DuncanApthorp,一位大数据分析师表示,他所存在公司并不要求名牌院校,这意味着普通毕业生也很有机会。



  10、大公司都知道他们在做什么



  显然不是。根据Gartner对数百家企业案例的研究:“在2016年,财富500强85%企业将无法利用大数据获得竞争优势。”



  Teradata的高级副总裁TassoArgyros表示:传统商业智能是从一个明确定义的问题开始,对于大数据发现,你有一个起点,但它不是一个业务问题,它是一个业务目标。问题在于你不知道要问什么问题或要使用什么数据,只是说’看这些数据,让我们开始,这通常很容易会失败。



  所以,问题的答案是“不”,不是每个人都知道他们在做什么,很难制定出高效使用大数据的策略。




汉语分词系统NLPIR(前身ICTCLAS)从2000年诞生以来,历时14年,全球用户突破30万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名,已经成为中文信息处理领域标杆性的工作。ICTCLAS创始人张华平博士倾力打造,即将推出的NLPIR2014版,是迄今为止最大的一次更新,在汉语分词体系架构下增加了对英文词法分析的支持,可以自动识别英文词汇的原型、词性标注、命名实体与关键词;并在当前汉语词法分析的基础上,实现了文档的完整语义分析,自动提取文档的人名、地名、机构名、文章作者、发布的媒体、关键词与摘要,是当前中文信息处理的必备神器,值得期待!

我们即将召开NLPIR2014发布暨ICTCLAS用户大会,由北京理工大学大数据搜索挖掘实验室主办,计算机世界与大数据论坛联合承办。张华平博士诚邀历年来所有支持我们前行的ICTCLAS用户,中文分词及中文信息处理的技术爱好者莅临参加,分享中文语言智能理解的美妙。届时,张华平博士将亲自讲解NLPIR2014背后的技术原理与最新进展,并由资深工程师在不同操作系统不同开发语言下NLPIR的实训技巧,同时还有不同背景的资深用户分享他们的使用开发经验。

在线报名:http://118.192.14.52/bigdatatrain/bm.jsp(请注明NLPIR2014;场地有限,只接收前100名

基本信息

会议形式

(a) PPT算法讲解;

(b) NLPIR2014系统演示与实际开发操作;

(c) 针对学员具体需求的互动交流会

(d) 提供专属U盘:保护NLPIR2014的演示系统、各类试用的API以及新版开发手册;

会议时间

12月21日上午9:00-12:00,下午13:30-17:00 ( 17:00-18:00 开放式讨论答疑 )

门票费用

(a)1400 (包含门票,NLPIR2014演示系统、开发包与文档, U盘,工作餐,赠送由张华平博士亲笔签名的《大数据搜索与挖掘》专著);

(b) 12月10日前缴费优惠价1300元;老学员或同单位三人以上报名九折优惠;全日制学生凭学生证会费优惠价格980元,不含发票。

(c)名额有限,参会者需在参会前提前购买门票。

(d)差旅及食宿费用自理。

与会嘉宾

主讲人:张华平:NLPIR(ICTCLAS)创始人与开发者,北京理工大学大数据搜索挖掘实验室主任,博士,副教授

主持人:赵燕平:北理工经管学院教授,北京理工大学大数据搜索挖掘实验室副主任

特邀ICTCLAS典型用户嘉宾待定(将包括跨国企业、金融、政府机关、科研院所、投资与互联网等代表性用户)

会议地址

北京理工大学理工国际交流中心

在线报名:http://118.192.14.52/bigdatatrain/bm.jsp(请注明NLPIR2014;场地有限,只接收前100名

ICTCLAS创始人张华平博士简介

2005年博士毕业于中科院计算所,研究方向为:微博计算、自然语言处理、信息检索与信息安全、大数据搜索与挖掘。曾先后获得2010年度钱伟长中文信息处理科学技术奖一等奖,中科院院长优秀奖、中科院计算所所长特别奖,中科院计算所“百星计划”首批入选者。张华平作为课题组长主持开发了国家自然科学基金、863、973、242等科研课题十余项,发表《大数据搜索与挖掘》《信息检索:算法与启发式规则》《自然语言理解》等专译著3部,所研制的ICTCLAS分词系统已经向国内外的企业和学术机构颁发了三十万多份授权,在学术界和产业界得到了广泛的应用。并作为特邀技术专家,先后在中央电视台、全国网络侠客行大会、全球大数据技术峰会、中国网络科学大会上做大数据相关的主题演讲,广受好评。

会议日程

时间

讲师

环节

主要内容

8:00-9:00

各位参会人员

会议报到

签到,领取各项资料。

9:00-9:20

赵燕平教授

大会开幕式

开幕式致辞,嘉宾与学员介绍

9:20-09:50

张华平博士

NLPIR2014发布

1)     NLPIR2014功能展示:分词、词性标注、命名实体识别、新词识别、英文分析、关键词提取;

2)    NLPIR2014开发包介绍

09:50-10:10

 

合影留念及茶歇

 

10:10-12:00

张华平博士

NLPIR2014汉语分词关键技术及最新进展

1.  ICTCLAS的层叠隐马分词模型(汉语分词、未登录词识别、词性标注)

2.   ICTCLAS的词典管理专利算法:完美双数组TRIE树;

3.  新词识别与关键词提取算法原理;

4.  NLPIR2014英语词法分析技术;

12:00-13:30

 

工作午餐

 

13:30-15:00

张华平博士

康肖钰硕士生

张冰波硕士生

NLPIR2014汉语分词开发包使用实训

1.    NLPIR2014 C/C++语言调用实训

2.    NLPIR2014 Java语言调用实训

3.    NLPIR2014 Linux调用实训

4.    NLPIR2014 高级编程实训(多线程安全、用户自适应分词、python调用、关键词提取等)

15:00-15:30

朱勇高级工程师

NLPIR示范应用:黄金眼Web大数据搜索与挖掘平台

主要介绍利用NLPIR系统开发的黄金眼Web大数据搜索与挖掘平台,展示主要功能与背后的实战应用经验,目前已经应用于工信部、总参、财经杂志等单位。

15:30-16:00

姜伟(北京外事办信息中心主任)

NLPIR示范应用:政务公文主题词提取系统

主要介绍利用NLPIR系统开发的政务公文主题词系统,历经十余年,目前已经应用于大部分政府机关。

16:00-16:30

罗文川(缔元信CTO)

NLPIR示范应用:缔元信网站统计数据挖掘与应用

主要介绍缔元信利用NLPIR系统开发的互联网网站统计数据挖掘与应用,是目前网站统计方面权威的机构。

16:30-17:00

待定

 

 

17:00-18:00

 张华平博士

交流沙龙

 可与ICTCLAS创始人张华平博士直接交流讨论


名额有限,先到先得,参会报名热线:

张老师 13681251543    Email: zhangjie@bigdatabbs.com

官网支持:http://ictclas.nlpir.org

在线报名:http://118.192.14.52/bigdatatrain/bm.jsp(请注明NLPIR2014;场地有限,只接收前100名


转载于:https://my.oschina.net/u/1160813/blog/180221

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值