第一章大数据概述
1数据
1.1数据的概念
数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,是可识别的、抽象的符号。
数据和信息是两个不同的概念,信息是较为宏观的概念,它由数据的有序排列组合而成,传达给读者某个概念方法等,而数据则是构成信息的基本单位,离散的数据没有任何实用价值。
数据也被称为“未来的石油”
1.2数据的类型
文本 图片 音频 视频
1.3数据组织形式
计算机系统中的数据组织形式主要有两种,即文件和数据库。
(1)文件:计算机系统中的很多数据都是以文件形式存在的,比如一个Word文件、一个文本文件、一个网页文件、一个图片文件等等。
(2)数据库:计算机系统中另一种非常重要的数据组织形式就是数据库,今天,数据库已经成为计算机软件开发的基础和核心。
1.4数据的使用
数据清洗->数据管理->数据分析
数据使用的实例:数据仓库
1.5数据的价值性
在过去,一旦数据的基本用途实现了,往往就会被删除,一方面是由于过去的存储技术落后,人们需要删除旧数据来存储新数据,另一方面则是人们没有认识到数据的潜在价值。
数据的价值不会因为不断被使用而削减,反而会因为不断重组而产生更大的价值。
各类收集来的数据都应当被尽可能长时间地保存下来,同时也应当在一定条件下与全社会分享,并产生价值。
1.6数据爆炸
人类进入信息社会以后,数据以自然方式增长,其产生不以人的意志为转移
从1986年开始到2010年的20年时间里,全球数据的数量增长了100倍,今后的数据量增长速度将更快,我们正生活在一个“数据爆炸”的时代。
2大数据时代
2.1第三次信息化浪潮
根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革。
表1-1 三次信息化浪潮
信息化浪潮 |
发生时间 |
标志 |
解决问题 |
代表企业 |
第一次浪潮 |
1980年前后 |
个人计算机 |
信息处理 |
Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等 |
第二次浪潮 |
1995年前后 |
互联网 |
信息传输 |
雅虎、谷歌、阿里巴巴、百度、腾讯等 |
第三次浪潮 |
2010年前后< |