了解传统数据与大数据
传统数据与大数据相比
数据量 传统数据gb-tb 大数据tb-pb以上
增长速度 传统数据数据量稳定 增长缓慢 大数据 持续实时生产数据
多样化 传统数据主要为结构化数据 大数据 半结构化,非结构化,多维数据
价值 传统数据 统计和报表 大数据 数据挖掘预测分析
大数据服务器安装规范
系统硬盘
两个硬盘做一个raid1
引导分区:200M
交换分区:可以不设置或设置的很小,在使用大数据时需要将其关闭
根分区:/
数据硬盘
多个硬盘,每个硬盘独立挂载,有多少个硬盘挂载多少个目录
数据硬盘优先不做raid处理,必须做时,做raid0
做raid
优点:数据读写效率稍高
缺点:不支持热插拔,一块硬盘损坏,服务器需要关机才能处理该硬盘
不做raid
优点:支持热插拔,若一块硬盘损坏可即插即拔,不需要关机
缺点:数据的读写效率稍低
传统数据与大数据处理方式的对比
扩展性 传统数据纵向扩展(服务器数量不变,配置越来越高) 大数据横向扩展(配置不变,服务器数量越来越多)
分布式 传统数据资源集中 大数据资源分布
可用性 传统数据单份数据 大数据数据复制
模型 传统数据移动数据 大数据移动计算程序
大数据技术快的原因是
分布式存储
分布式并行计算
移动程序到数据端
更先进,更前卫的实现思路
更细分的业务场景
更先进的软件和硬件技术
Hadoop的内部组成
h