一、大数据概述
1.数据
1.1.数据的概念
(1)数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,是可识别的、抽象的符号。
(2)数据与信息的不同:信息是较为宏观的概念,它由数据的有序排列组合而成,传达给读者某个概念方法等,而数据则是构成信息的基本单位,离散的数据没有任何实用价值。
1.2.数据类型
文本、图片、音频、视频
1.3.计算机系统中的数据组织形式
文件、数据库
1.4.数据的使用
(1)数据清洗
(2)数据管理
(3)数据分析
注意:没有数据抽样
5.数据的价值
注意:数据的价值不会因为不断被使用而削减
2.大数据时代
2.1.三次信息化浪潮
信息化浪潮 | 发生时间 | 标志 | 解决问题 |
---|---|---|---|
第一次浪潮 | 1980前后 | 个人计算机 | 信息处理 |
第二次浪潮 | 1995前后 | 互联网 | 信息传输 |
第三次浪潮 | 2010前后 | 信息爆炸 | 信息爆炸 |
2.2.信息科技提供技术支撑
(1)存储设备容量不断增加
(2)CPU处理能力大幅提升
(3)网络带宽不断增加
注意:没有量子计算机的普及
2.3.数据产生方式的变革
(1)运营式系统阶段
(2)用户原创内容阶段
(3)感知式系统阶段
注意:没有手工创建阶段
3.大数据的发展历程
(1)萌芽期:上世纪九十年代——本世纪初
(2)成熟期:本世纪前十年
(3)大规模应用期:2010年以后
4.大数据的概念
4.1.大数据的“4V”特性
- 数据量大
- 数据类型繁多
- 处理速度快
- 价值密度低
注意:价值密度低而不是高
4.2.数据量大
- 数据以每年50%的速度增长
- 每两年增长一倍(大数据摩尔定律)
- 在最近两年产生的数据量等于之前产生的全部数据量之和
4.3.数据类型繁多
- 科学研究:基因组、LHC、地球与空间探测
- 企业应用:Email&文档&文件、应用日志、交易记录
- web1.0数据:文本、图像、视频
- web2.0数据:查询日志/点击流、Twitter/Blog/SNS,Wiki
4.4.处理速度快
4.5.价值密度低
价值密度低、商业价值高
5.大数据的作用
5.1.对科学研究的影响
科学研究范式:
- 实验科学
- 理论科学
- 计算科学
- 数据科学
5.2.对社会发展的影响
- 大数据决策逐渐成为一种新的决策方式
- 大数据成为提升国家治理能力的新途径
- 大数据应用有力促进了信息技术与各行业的深度融合
- 大数据开发大大推动了新技术和新应用的不断涌现
5.3.对就业市场的影响
人才缺口大。
5.4.对人才培养的影响
大数据时代需要的人才:
- 计算机技术相关人才
- 统计学相关人才
- 业务人才
6.大数据产业
产业链环节:
- IT基础设施层
- 数据源层
- 数据管理层
- 数据分析层
- 数据平台层
- 数据应用层
7.大数据安全
7.1.传统数据安全
- 计算机病毒
- 黑客攻击
- 数据信息存储介质的损坏
7.2.大数据安全与传统数据安全的不同
- 大数据成为网络攻击的显著目标
- 大数据加大隐私泄露风险
- 大数据技术被应用到攻击手段中
- 大数据成为高级可持续攻击 (APT)的载体
7.3.大数据安全问题
(1)隐私和个人安全问题
(2)国家安全问题
- 大数据成为国家之间博弈的新战场
- 自媒体平台成为影响国家意识形态安全的重要因素
7.4.典型案例
(1)棱镜门事件
美国
(2)维基解密
(3)Facebook数据滥用事件
(4)手机应用软件过度采集个人信息
在微信朋友圈广泛传播的各种测试小程序
(5)12306数据泄露
(6)免费WIFI窃取用户信息
(7)探针盒子
当用户手机无线局域网处于打开状态时,会向周围发出寻找无线网络的信号,探针盒子发现信号
8.大数据思维
8.1.传统的思维方式
机械思维:
- 世界变化的规律是确定的
- 规律是可以被认识的,且可以用简单的公式或者语言描述清楚
- 规律应该是放之四海而皆准的
8.2.大数据时代需要新的思维方式
- 由于不确定性,机械论的方法,很难做出准确的预测
- 信息时代的方法论:谁掌握了信息,谁就能够获取财富
- 通过采集、量化、计算、分析各种事物来消除不确定性,对未来加以预测
- 转变思维方式,努力把身边的事物量化
8.3.大数据思维方式
- 全样而非抽样
- 效率而非精确
- 相关而非因果
- 以数据为中心
- 我为人人,人人为我
8.4.运用大数据思维的具体实例
- 商品比价网站Decide.com 全样而非抽样
- 啤酒与尿布 相关而非因果
- 零售商Target的基于大数据的商品营销 相关而非因果
- 吸烟有害身体健康的法律诉讼 相关而非因果
- 基于大数据的药品研发 相关而非因果
- 基于大数据的谷歌广告 以数据为中心
- 搜索引擎“点击模型” 以数据为中心
- 迪士尼MagicBand手环 我为人人,人人为我
- 谷歌流感趋势预测 全样而非抽样
- 大数据的简单算法比小数据的复杂算法更有效 以数据为中心
- 谷歌翻译 效率而非精确
- 导航 我为人人,人人为我
9.大数据伦理
9.1.大数据伦理概念
9.2.大数据伦理典型案例
- 大麦网“撞库”事件
- 大数据“杀熟”
- 隐性偏差问题
- “信息茧房”问题
9.3.大数据的伦理问题
- 隐私泄露问题 隐私数据化、隐私主要以“个人数据”的形式出现、留下一条永远存在的“数据足迹”
- 数据安全问题 信息技术本身就存在安全漏洞,导致数据泄露、伪造、失真等问题
- 数字鸿沟问题 信息时代的“马太效应”、“富者越富、穷者越穷”
- 数据独裁问题 让数据统治人类,使人类彻底走向唯数据主义
- 数据垄断问题 (1)数据可能造成进入壁垒或扩张壁垒 (2)拥有大数据形成市场支配地位并滥用 (3)因数据产品而形成市场支配地位并滥用 (4)涉及数据方面的垄断协议 (5)数据资产的并购 一旦大数据企业形成数据垄断,就会出现消费者在日常生活中被迫地接受服务及提供个人信息的情况
- 数据的真实可靠问题
- 人的主体地位问题 在一切皆数据的条件下,人的主体地位逐渐消失
10.数据的共享与开放
10.1.数据孤岛问题
(1)政府的数据孤岛问题
- 由于各政府部门建设数据库所采用的技术、平台及网络标准不统一,导致政府职能部门之间难以实现数据对接与共享
- 纵向上各级垂直管理部门建设的政府信息系统形成“数据烟囱”,横向上部门间各业务条块则自建系统形成“数据孤岛”,政府公共信息资源的存储彼此独立、管理分散
- 作为政府最重要资产之一的政务数据,因为数据量太大、太散、难以有效融合等问题,严重影响到了数据价值的发挥,大大浪费了各地政府部门在信息化系统建设方面的大量投入
(2)企业的数据孤岛问题
- 企业管理职能精细划分,信息系统围绕不同的管理阶段和管理职能展开
- 所有数据被封存在各系统中,让完整的业务链上孤岛林立,信息的共享、反馈难,数据孤岛问题是企业信息化建设中的最大难题
10.2.数据孤岛问题产生的原因
(1)政府数据孤岛的产生原因
- 有些政府部门错误地将数据资源等同于一般资源,认为占有就是财富,热衷于搜集,不愿共享
- 有些部门只盯着自己的数据服务系统,结果因为数据标准、系统接口等技术原因,无法与外单位、外部门联通
- 有的,对大数据缺乏顶层设计,导致各条线、各部门固有的本位主义作祟,壁垒林立,数据无法流动
(2)企业数据孤岛的产生原因
- 不同企业之间,属于不同的经营主体,有着各自的利益,彼此之间数据不共享,产生企业之间的数据孤岛,这种是比较普遍的情况。
- 企业内部也往往会存在大量数据孤岛,这些数据孤岛的形成主要有两个方面的原因:
- 以功能为标准的部门划分导致数据孤岛
- 不同类型、不同版本的信息化管理系统导致数据孤岛
10.3.消除数据孤岛的重要意义
(1)对于政府的意义
- 有助于提升资源利用率
- 有助于推动政府转型
(2)对于企业的意义
- 打通企业内部的数据孤岛,实现所有系统数据互通共享,对建立企业自身的大数据平台和企业信息化建设都有重大意义。
- 打通企业之间的数据孤岛,实现不同企业的数据共享,有利于企业获得更好的经营发展能力。
10.4.实现数据共享所面临的挑战
(1)在政府层面的挑战
- 不愿共享开放
- 不敢
- 不会
- 数据中心共享开放作用不强
(2)在企业层面的挑战
- 系统孤岛挑战
- 组织架构挑战
- 数据合作挑战
10.5.推进数据共享开放的举措
(1)在政府层面的举措
- 积极开放政府数据资源,提高政府职能部门之间和具有不同创新资源的主体之间的数据共享广度,促进区域内形成“数据共享池”
- 要改变政府职能部门“数据孤岛”现象,立足于数据资源的共享互换,设定相对明确的数据标准,实现部门之间的数据对接与共享,推进在制度创新方面的系统集成化,为科技创新提供必要条件
- 要促进准确及时的数据信息传递,提高部门条线管理、“一站式”企业网上办事和政府服务项目“一网通办”的网络信息功能,提高数据质量的可靠性、稳定性与权威性,增加相关信息平台的使用覆盖面,让现存数据“连起来”、“用起来”
(2)在企业层面的举措
- 在企业内部,破除“数据 孤岛”,推进数据融合
- 在不同企业之间,建立企业数据共享联盟
10.6.政府开放数据的理论基础
(1)数据资产理论
- 数据资产是无形资产的延伸,是主要以知识形态存在的重要经济资源,是为其所有者或合法使用者提供某种权利、优势和效益的固定资产
- 数据资产的类型有很多,常见的数据资产包括书面技术新材料、数据与文档、技术软件、物理资产(主要指通信协议类)、员工与客户(包括竞争对手)、企业形象和声誉以及服务等
- 同其他资产一样,数据资产也是企业价值创造的工具和资本
- 作为现代企业和政府,拥有数据的规模、活性,以及收集、运用数据的能力,将决定企业和政府的核心竞争力
(2)数据权理论
- 数据权的概念发起于英国,主要将其视为信息社会的一项基本公民权利,让政府所拥有的数据集能够被公众申请和使用,并且按照标准公布数据。因此,早期的数据权理念强调的是公民利用信息的权利
- 随着数据的进一步开放,大型网络公司对于历史文献资料的数据化,商业集团对于客户资料的搜集,政府部门对于个人信息的调查与掌握,社会化媒体对于社会交往的渗透与呈现,使国家和政府加强了对数据主权的关注,并将其纳入到数据主权的范畴
- 数据主权源于信息主权。信息主权是国家主权在信息活动中的体现,国家对于政权管辖地域内任何信息的制造、传播和交易活动,以及相关的组织和制度拥有最高权力
- 数据权包括两个方面:数据主权和数据权利
- 数据主权的主体是国家,是一个国家独立自主对本国数据进行管理和利用的权力
- 数据权利的主体是公民,是相对应于公民数据采集义务而形成的对数据利用的权利,这种对数据的利用又是建立在数据主权之下的。只有在数据主权法定框架下,公民才可自由行使数据权利。公民的数据权利,是一项新兴的基本人权,它是信息时代的产物,是公民个人的基本权利。公民数据权的保护,不仅具有正当合理性,而且已经成为一种人权保障的世界性趋势
(3)开放政府理论
- 其核心是关于信息自由方面的内容。
- 世界各国都在努力使用信息技术革新政府,并在2011年建立了以美国领导的“开放政府联盟”。
10.7.政府信息公开与政府数据开放的联系与区别
10.8.政府数据开放的重要意义
(1)政府开放数据有利于促进开放透明政府的形成
- 政府开放数据是更高层次的政府信息公开,而政府信息公开也将推动政府民主法治进程
- 如果说政府信息公开还是处于起步阶段,那么政府开放数据则是更高层次的政务公开
- 数据是政府手中的重要资源,政府开放数据的范围、程度、速度都代表着政府开放的程度
(2)政府开放数据有利于创新创业和经济增长
- 美国是气象灾害频发的国家,为减少气象灾害带来的严重损失,2014年3月,美国白宫宣布:将气象数据发布在Data.gov上,随后,与气象相关的企业服务应运而生,包括各种气象播报、气象顾问、气象保险等,形成了一个新的产业链,创造出了极高的经济价值
- 政府数据的再利用,在欧洲也创造出很高的经济价值。2010年欧盟公布的数据显示,欧洲利用政府公开的数据创造出的价值就达到320亿欧元,同时带来了更多的商业和就业机会
(3)政府开放数据有利于社会治理创新
- 政府数据的开放不仅打破了政府部门对数据的垄断,促进了数据价值的最大发挥,同时也构建起了政府同市场、社会、公众之间互动的平台
- 数据分享和大数据技术应用,不仅可以有效推动政府各部门在公共活动中实现协同治理,提高政府决策的水平,也能够充分调动各方的积极性来完成社会事务,实现社会治理机制的创新,给公众的生活带来便利,比如缓解交通压力、增强食品安全、解决环境污染等