四问大数据:大数据究竟怎么用?

问题一:

  大数据属于谁?



  获取、记录数据需要耗费资源,因此,数据也就具有了资产的属性。在大数据出现以前,数据依附于具体业务而存在,人们更多的关注在使用数据的软件系统上。没有软件的使用,就没有数据的价值。当时有关数据的归属问题并不那么突出。在大数据时代,数据可以作为一种独立的存在,其“资产”性价值越来越引起人们的重视。



  数据是物理世界客观事物性质、状态的反映,这是客观存在。你去收集了,有特定的表达形式,自然特定格式的数据就是你的。个人、企业、政府、组织都可以合法地去收集数据。如果违反了现有法律收集了数据,自然也是非法拥有,数据财产也是非法的了。



  肯尼思·丘基尔:个人、企业、政府等都可能是数据的拥有者。比如,移动运营商收集个人使用全球定位系统的定位数据。这种情况下,个人成为大数据的来源,移动通信公司投资并收集大数据,以向用户提供更好的服务。类似地,政府可拥有特定的数据,如人口普查数据、天气信息、邮政编码等。不过,我们会对大数据如何使用或者是否应该被收集施加一些限制。



  黄智生:随着智能手机、网络和卫星定位系统的普及,每个人的一举一动都会产生很多数据。个体在购买手机、签署手机合同之时可能就同意手机网络公司有权获得个人位置之类的信息了。



  今后的数据归属权与个人隐私的概念可能越来越无关,而且随着时间的推移,人们对于隐私的看法也在发生改变。以个人位置数据信息为例,以前,人们肯定很不乐意自己的行踪被别人获知。如今,似乎没有人为了不让别人知道自己的行踪而不使用手机。



  欧洲民众要求政府公开信息的诉求越来越强烈,欧盟和欧洲各国的立法也在向这个方向推进。以荷兰为例,除了涉及国家安全和个人隐私的公共信息外,大部分信息都已经实现了公开。民众也有权向政府申请信息公开。



  朱扬勇:关于数据财产,目前法律上存在空白,套用目前的物权法或著作权法等相关法律可能都有些问题。所以,我们只能来谈谈数据权益归属的合理性问题。因为数据不是天然存在的,所以,“数据应该属于数据的生产者”的说法比较合情合理。但是,很多时候数据拥有者很难主张权利,这需要将来制定相应的法律来解决。现在面临的问题主要有两个:一是当数据有多个生产者时如何界定;二是当生产的数据涉及秘密和隐私时如何界定。



  对于第一个问题,可以通过协商解决。例如,某人在电子商务网站购物,购物行为生产的数据是可以由购物者和电商(可能还有第三方支付平台)共同拥有。一般情况下,个人购物数据对个人几乎无用,目前被电商无偿占有了。再比如,微博数据现在几乎已经作为个人资产来看待了,因而微博运营商就不能无偿占有使用微博数据,需要协商处理。对于第二个问题, 就需要法律来界定了。例如,病历数据是病人和医生及医院共同生产的,医院销售病历数据就一定会遇到麻烦,这里不是数据权益的主张问题,而是涉及病人的隐私问题。



问题二:



  大数据谁掌控?



  肯尼思·丘基尔:没有哪个机构或者哪个人会拥有大数据的最终控制权。这取决于具体情况,即什么类型的数据、用于何种目的。例如,我们的智能手机传感器可能会识别我们周边的人。这是否意味着我侵犯了别人的隐私呢?也许是的。但这不同于上世纪20年代中期大众摄影时代发生的情形。那个年代,如果有人在大街上对你拍照或者录像,你会觉得受到了干扰。但是,今天,当人们在巴黎卢浮宫前被数百台智能手机拍摄时,大部分人是不会在乎的。



  维克托·迈尔·舍恩伯格:我们仍处在大数据时代的初始阶段,谁来掌控大数据或者谁来使用,在何种条件下又受到何种规范,大数据未来的储存和流动方式等,都还处于未知的状态,我们无法给出准确的答案。但是社会的各个领域已经有很多这方面的尝试,未来在这方面也一定会出现更多的创新。



  未来对大数据规范管理的重点仍旧需要集中在个人信息的使用方面,而不是数据的采集和交易过程。采集数据的过程并不会带来太多的麻烦,关键问题在于有可能产生数据滥用。因为互联网公司可以收集大量有价值的数据,而且有利用这些数据的强烈的利益驱动力,所以互联网公司顺理成章地成了最新处理技术的带头实践者。它们甚至超过了很多有几十年经验的线下公司,成为新技术的领衔使用者。但事实上,政府才是大规模信息的原始采集者,并且还在与私营企业竞争他们所控制的大量数据。



  黄智生:目前网络上的数据庞大,但绝大部分数据都是由公司进行管理的。比如个人的邮件系统,无论个人使用哪一家公司的邮件系统,提供商都可以看到这些邮件。但是这些公司的员工必须遵守职业道德,而且有严格的调阅规章制度,法律中对私自查看或泄露别人网络隐私的行为也会进行严厉打击。



  公共数据可以由政府进行管理,但必须严格遵守法律。在欧洲,个人、公司和组织有权拒绝向政府或执法机关提供数据。比如,我在阿姆斯特丹留学期间,荷兰警方要求我们学校提供所有华人留学生的住址,但学校表示,荷兰法律没有规定我们有义务向警方提供此类信息。但如果涉及国家安全,又有法律可循,那么欧洲的政府是有权管理相关数据的。



问题三:



  大数据存多久?



  维克托·迈尔·舍恩伯格:我们所处的时代之所以与众不同,是因为数据的收集不再存在固有的局限性。技术已经发展到一定程度,大量信息可以被廉价地捕捉和记录。数据收集往往是被动的,人们无须投入太多精力,甚至不需要认识这些数据。而且,由于存储成本的大幅下降,保存数据比丢弃数据更加容易。这使得以较低成本获得更多数据的可能性比以往任何时候都大。在过去50年中,数字存储成本大约每两年削减一半,而存储密度则增加了5000万倍。大部分数据的直接价值对收集者而言是显而易见的。数据的基本用途为信息的收集和处理提供了依据。



  随着时间的推移,大多数数据都会失去一部分基本用途。在这种情况下,继续依赖于旧的数据不仅不能增加价值,实际上还会破坏新数据的价值。然而,并非所有的数据都会贬值。有些公司提倡尽可能长时间地保存数据,即使监管部门或公众要求它们短时间内删除或隐匿这些信息。这就解释了为什么一直以来,谷歌都拒绝将互联网协议地址从旧的搜索查询中完全删除。谷歌希望得到每年的同比数据,如假日购物搜索等。



  黄智生:目前似乎没有法规要求在一定的时限后销毁数据。如银行的个人财务信息等内容,反而要求一定期限内不准销毁。而且现在存储数据的成本很低,所以各公司都尽量将各自产生的数据储存下来。虽然世界主要技术公司的总部大多在美国,但并非所有的数据都储存在美国,世界各地都会有这些公司的服务器和存储系统。不过这些技术公司的高级管理人员可以很容易地查阅到世界各地的数据。从这个方面来讲,存放在哪里并不重要,只要网络能连接就可以了。如美国政府搜集的所谓“事关国家安全”的信息,政府更不会将其销毁,只会越积越多。相对于较低的储存成本,真正耗资的是筛选和运算成本。从山一样的数据中挑选砂一样的有用信息,实在很困难。



  虽然目前WEB3.0系统已经能够做到低智能、大数据量的筛选工作,但依然达不到实战需要,代替不了人的作用。这如山一样的数据,是政府的一种负担,也是一个鸡肋。但不能说这些数据就没有用,比如警方确定了一个犯罪分子身份,就可以依法向网路服务商、手机服务商索取这个犯罪分子之前的所有信息,并通过这些积累的信息进行分析筛选。



  法迪·谢哈德:互联网名称与数字地址分配机构(ICANN)成立之时完全由美国政府主导,招致许多非英语国家,特别是发展中国家人士的不满。互联网域名相当于网络空间的门牌号,本来是一个全球性系统。ICANN在2009年与美国商务部签署协议,此后不再对该部门负责,并使国际利益相关方在ICANN监管全球域名系统时拥有更多发言权。我们应该增加互联网领域的透明度,而不让某个国家或地区把互联网控制起来,各国、各地区应该更加平等地分享网络数据资源。



  杜小勇:拥有数据的组织可以决定数据放在哪、如何存、存多久等。如果数据是企业的生命线,他自然会考虑安全、经济、高效等多种因素。为了信息安全,企业一般会采取异地备份等成本更高的手段。据称,“9·11”事件后,有些拥有更完善的数据备份体系的公司很快就恢复了业务,而另一些公司则由于数据损毁而走向破产。企业数据要存多久,也是一个需要权衡各种因素后的决策。这是企业自主的行为,除非建立在这些数据之上的业务还有其他法律上的要求。



  我们可能关心的是另一个问题,即国家层面的信息安全。有人提出“信息疆域”的概念。也就是说,土地、海洋、空间都有国家的属性(领地、领海、领空),数字空间中是否也有“主权”的概念?大型跨国公司,通过种种业务渗透到日常生活的方方面面,因此可以采集到一个国家方方面面的数据。于是,国外机构对一个国家情况的了解甚至有可能超过该国自身,这显然会直接威胁到国家安全。



  因此,国家对于跨国企业的数据传输、数据备份、数据使用等应有所限制,并进行监控,这十分必要。国家应该对此立法保障。有些数据有法律的保护,如测绘数据,其他更多种类的数据,目前还没有类似的法律。



问题四:



  大数据怎么用?



  维克托·迈尔·舍恩伯格:随着世界开始迈向大数据时代,社会也将经历类似的地壳运动。在改变我们生活和思维方式的同时,大数据早已在推动我们重新考虑最基本的准则,包括怎样鼓励其增长以及怎样遏制其潜在威胁。然而,不同于印刷革命,我们没有几个世纪的时间去慢慢适应,我们也许只有几年时间。



  在大数据时代,对原有规范的修修补补已经满足不了需要,也不足以抑制大数据带来的风险,我们需要全新的制度规范。我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于数据使用者为其行为承担责任,而不是将重心放在收集数据之初取得个人认可上。



  肯尼思·丘基尔:对大数据技术进行规范是问题的关键。首先,可以从强调监管大数据的收集,转向重点监管大数据的实际使用。其次,可以让大数据变得不那么神秘,不再是个“黑箱”,增加大数据应用中的透明度和问责制。可创造一个被称为“算法学家”的新职业,这些人接受计算机技术、统计学和数据处理方面的专门训练,对大数据的应用进行评估,以确保公众对大数据系统感到放心。



  至于平衡隐私权和国家安全的问题,古希腊哲学家亚里士多德早就提出这样的问题:“我们如何监视守护者?”即使是在他那个年代,这个问题也没有简单的答案。



  斯蒂夫·帕尔默:大数据给我们带来的真正机遇是把许多信息碎片拼起来,为我们的决策服务。大数据时代最大的挑战是如何从大数据中获取“价值”。从大数据中获取最大价值,需要探索式的研究方法。未来,数据科学家会很吃香,这种科学家既要熟悉商业环境,也要有操作层面的知识。



  杜小勇:很多问题就出在数据使用上!数据作为资产,就涉及管理的问题,因此“数据治理”就显得越发重要。信息世界同样需要公约,将窃取他人数据视为犯罪,将攻击他人系统视为犯罪,从刑法上加以明确规定,共同营造一个文明有序的数字生活,应该是我们的理想。大数据时代,我们需要尽快跟进这方面的工作,如开展国家间对话,形成公约。



  企业利用数据挖掘技术,进行精准广告投放,也涉及隐私问题。一个少女收到了婴儿用品广告,其父大怒,要告企业。事实却是这位少女未婚先孕了。这个故事中,企业使用的是自己采集的客户购物数据,使用的是自己开发的数据挖掘软件,整个过程都没有问题。但事实上却侵犯了个人隐私,应坚决反对。这里面应该有一些法律问题,需要认真研究。



  朱扬勇:“大数据时代,数据作为资源,不被共享是趋势。”这样的话,数据运用一定需要价值交换。在确定数据权益的前提下,数据的运用就是有偿使用。法律需要界定数据的权益,政府界定数据的类型(哪些是隐私,哪些涉及国家安全)等,这样数据的流通就有法可依。



  在现阶段法律法规都还没有明确之前,应从国家安全的角度高度关注数据资源的安全。而作为个人,要明白“有行动就可能产生数据”,所以当有些行为涉及隐私时,需要谨慎。



  从更大的范围来讲,公共网络中公开的数据应该属于全人类,任何人都有权获取、使用并获益。这样能够更大程度地发挥数据资源的作用,让数据给人类的生活生产带来更多便利,对人类社会进步有重要的意义。

 

大数据技术已经成为互联网后的又一个里程碑意义的科技革命与生产力革命,也是产业结构战略调整的战略机遇。如何管理自身的业务大数据,从中获取智慧,对传统业务再造并实巨大价值的产品和服务?如何将大数据困境转换为大数据宝藏?如何从大数据概念炒作到实践落地?

由北京理工大学大数据搜索挖掘实验室、中国科学院计算技术研究所教育中心联合主办,大数据论坛联合承办,开设大数据技术进修班。聘请北京理工大学赵燕平教授、张华平博士、北京市外办信息中心姜伟主任、清华大学马宝君博士等知名专家全面讲授大数据架构、大数据搜索、大数据挖掘以及大数据应用四大板块,分享亲身经历的大数据应用,并为学员提供大数据搜索挖掘工具的实训。

授课时间 9月7、8日上午9:00-12:00,下午13:30-16:30 ( 16:30-17:00 开放式讨论答疑 )

进修费用 4980元 (包含发票,讲义,教材,工作餐,与讲师互动自助晚餐会);老学员或同单位三人以上报名九折优惠; 全日制学生凭学生证优惠价格2980元,不含发票。差旅及食宿费用自理

授课方式 :(a)《大数据搜索与挖掘》教材(科学出版社); (b)中文多媒体讲义;

             (c) 针对学员具体需求的互动交流会。 (d)大数据搜索与挖掘工具实训;

(e)互动自助晚餐会;

主讲讲师:张华平:北京理工大学大数据搜索挖掘实验室主任,博士,副教授

             赵燕平:北京理工大学教授,教育部电子商务专家

             姜伟:北京市外事办信息中心主任

             马宝君:清华大学搜索评价与推荐系统专家

小班授课:为保证充分讨论,确保进修效果,采用小班授课,名额有限,先到先得。

培训内容:《科学的大数据观》《云计算与大数据架构》《大数据精准搜索关键技术》          

          《大数据挖掘关键技术》《大数据搜索与挖掘平台工具实训》 

          《大数据与电子商务应用》《大数据在电子政务中的应用》《微博大数据挖掘》 

          《大数据困惑及解决》《方案应对讨论》

主讲师张华平:张华平博士,北京理工大学副教授,研究生导师,知名汉语分词系

                   统ICTCL  AS的创始人,计算机学院院长助理,大数据搜索挖掘实

                   验室主任,中国计算机学会高级会员,中国中文信息学会社会媒体

                   处理专业委员会常务委员,同时担任首都师范大学兼职副教授,辽

                   宁师范大学客座教授,国家自然科学基金函评专家,北京市重点产

                   业知识产权联盟专家、同时担任《计算机研究与发展》、中国科技

                   论文在线等杂志的特邀评审专家。2005年博士毕业于中科院计算所,

                   研究方向为:微博计算、自然语言处理、信息检索与信息安全、大

                   数据搜索与挖掘。曾先后获得2010年度钱伟长中文信息处理科学技

                   术奖一等奖,中科院院长优秀奖、中科院计算所所长特别奖,中科

                   院计算所“百星计划”首批入选者。张华平作为课题组长主持开发

                   了国家自然科学基金、863、973、242等科研课题十余项,发表《大

                   数据搜索与挖掘》《信息检索:算法与启发式规则》《自然语言理

                   解》等专译著3部,所研制的ICTCLAS分词系统已经向国内外的企业

                   和学术机构颁发了三十万多份授权,在学术界和产业界得到了广泛

                   的应用。并作为特邀技术专家,先后在全国网络侠客行大会、全球

                   大数据技术峰会、中国网络科学大会上做大数据相关的主题演讲,广

                   受好评。

报名地址:http://www.lingjoin.com/lingjointrain/#add06

赵老师   010-68918050    13681251543

灵玖软件,大数据搜索与挖掘技术服务商 灵玖软件专注于大数据搜索与挖掘的技术创新与服务,提供大数据搜索、大数据挖掘与大数据应用解决方案,以应对大数据的管理、处理、分析并从大数据中获知识与智慧。

灵玖软件:www.lingjoin.com 

大数据论坛:www.bigdatabbs.com 

 

转载于:https://my.oschina.net/u/1160813/blog/143454

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值