1.大数据概念
1.1 4v说法
1.数据量大(volume)
2.数据类型繁多(variety)
3.处理速度快(velocity)
4.价值密度低(value)
1.2 大数据的影响
对科学研究的影响
4种范式:
1.实验科学
2.理论科学
3.计算科学
4.数据密集型科学(大数据时代产生的)
对思维方式影响
1.全样并非抽样
2.效率并非精准
3.相关并非因果
2.大数据相关技术
2.1大数据基本处理流程
1.数据采集与预处理
2.数据存储与管理(核心技术)
3.数据处理与分析(核心技术)
4.数据结果展现
3.大数据计算模式
不同业务场景有不同的大数据产品去解决问题
以下为主要几种业务场景
计算模式 | 解决问题 | 代表产品 |
---|---|---|
批处理计算 | 大规模数据批量处理 | Mapreduce,Spark |
流处理计算 | 流数据的实时计算 | S4,Storm,Flume,银河流数据处理平台 |
图计算 | 大规模图结构的处理 | GraphX,Hama,Pregel |
查询分析计算 | 大规模数据存储管理和查询分析 | Hive.Dremel,Impala |
大数据产业
Iaas: 基础设施即服务(阿里云,腾讯云卖云服务器的)
Paas: 平台即服务(卖开发环境的,卖家搭建好开发环境)
Saas: 软件即服务(卖软件的)