1 三次信息化浪潮
信息化浪潮 | 发生时间 | 标志 | 解决问题 | 代表企业 |
第一次浪潮 | 1980年前后 | 个人计算机 | 信息处理 | Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等 |
第二次浪潮 | 1995年前后 | 互联网 | 信息传输 | 雅虎、谷歌、阿里巴巴、百度、腾讯等 |
第三次浪潮 | 2010年前后 | 物联网、云计算和大数据 | 信息爆炸 | Facebook、亚马逊、美团、今日头条、滴滴 |
2 数据发展三个阶段
阶段 | 时间 | 内容 |
第一阶段:萌芽期 | 上世纪90年代至本世纪初 | 随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。 |
第二阶段:成熟期 | 本世纪前十年 | Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道 |
第三阶段:大规模应用期 | 2010年以后 | 大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高 |
3 科学研究四种范式
实验范式:通过做实验,总结规律。
理论范式:基于数学物理理论,对问题进行建模,并寻找解决方案。
计算范式:1946年通用计算机诞生,基于计算科学,对各种科学问题进行计算机模拟。先提出理论,再进行模拟计算来验证理论。
数据范式:根据已有数据,通过数据计算,得出新的理论。
4 数据可以分为两类
静态数据---->批处理--->mapreduct,spark
动态数据---->流计算--->storm flink
5 计算模式及代表产品
(1) 批处理计算
① MapReduce 高延迟离线计算,基于硬盘HDFS
② Spark 低延迟计算,基于内存
(2) 流式计算 实时计算
(3) 图计算
(4) 查询分析计算
6 大数据生态
(1) 数据管理层
Hadoop.hdfs
google.fds
etl.kettle
db.mysql
dw.hbase
(2) 数据分析层
分布式计算框架mapreduce
统计分析软件 spss sas
数据挖掘工具 weka mind
数据可视化工具 tableau
(3) 数据平台层
阿里云等