大数据架构基本逻辑梳理
流处理、批处理、交互式查询之间区别在文末
大数据的特点:
- Value(价值) Velocity(速度) Variety(多样性) Volume(体量)
大数据处理主要解决两个问题。
数据保存,数据操作
。以及处理结果的展现。其特点是:
数据单向增加。
删除和修改很少。Write-once-read-many
数据形态多样。
数据价值随时间递减。
实时数据价值最大,历史数据虽然有价值但会降低
数据在一个或多个数据中心的集群的大量机器中保存。
读写太多,导致硬件发生故障率升高。
数据保存涉涉及到两个问题:
数据的表达和数据的存储
。
鉴于大数据形态的多样性,很难用一种统一的结构化方法对数据建模。现在采用的基本策略都是用一个
统一的大表(Bigtable)来保存。在大表中,所有的数据(包括键值)都以字符串的形式保存
,将字符串的内部格式的控制权交给该数据的用户。该方案在简化数据模型的同时,也增加了数据用户的负担。
在Hadoop中也有它的对应的解决技术: