基本项目流程:
数据生产 → 数据采集 → 数据存储 → 数据预处理 → 数据计算 → 结果数据存储 → 结果数据展现
基本特征
-
大容量(海量化)
即数据巨大从TB跃升PB
-
多样化
数据类型繁多,结构化,半结构化,非结构化
-
快速
数据增长速率快,计算处理速度也快,时效性要求高
-
真实性
数据的准确性和可信赖性,既数据的质量
-
数据价值密度低
低成本创造高价值
大数据应用领域:全领域
- 查询:
在几分钟内,在交通摄像记录中查找近几个月内,某车票在全国范围内的行驶轨迹
- 分析:
全世界近五十年,各城镇的每小时气温变化原因
- 预测:
一分钟内,显示从北京到拉萨,考虑所有可能发生的情况(自然灾害,公路维护等)后,最佳的路线(驾车,火车,航班,大巴等)
大数据相比传统数据为什么快
纵向扩展:
通过提升单个系统的处理能力解决问题,通常是为系统提供更强大的软件
横向扩展:
通过增加服务器的数量,通过负载平衡等技术,让多台服务器构成一个集群,同时计算
资源集中:
集中式计算:数据计算几乎完全依赖一台中,大行的中心计算机的处理能力
集中式存储:数据完全存储到一个数据库中,并围绕他进行增删查改等组织操作
分布式:
分布式计算:一种计算方法,将应用分解成很多小部分,分配给多台服务器进行计算,节约时间,提高效率
分布式存储:一种存储技术,通过网络使用多台机器的磁盘空间,使分散的存储资源构成一个虚拟的存储设备,数据分散在多台服务器
数据快的原因:
- 分布式存储
- 分布式并行计算
- 移动程序到数据端
- 更前卫.更先进的实现思路
- 更先进的硬件和软件技术
- 更细分的业务场景