信息科技为大数据时代提供技术支持
- 存储设备容量不断增加
- CPU处理能力大幅度提升
- 网络带宽不断增加
大数据4V特征
- 数据量大
- 数据类型繁多
- 处理速度快
- 价值密度底
大数据对思维方式的影响
- 全样而非抽样
- 效率而非精确
- 相关而非因果
云计算关键技术
- 虚拟化
- 分布式存储
- 分布式计算
- 多租户
大数据与云计算,物联网的关系
- 三者区别
- 大数据侧重与对海量数据的存储,处理分析,从海量数据中发现价值,服务生产生活
- 云计算本质旨在整合优化各种IT资源,通过网络方式廉价提供给用户
- 物联网发展目标是实现物物相连,应用创新是物联网发展的核心
- 三者联系
- 整体上看,三者相辅相成。
- 大数据根植与云计算,大数据分析的很多技术都来自云计算
- 云计算的分布式数据存储和管理系统提供了海量数据的存储和管理能力,分布式平并行处理框架MR提供了海量数据分析能力。
- 大数据为云计算提供了用武之地。
- 物联网传感器构成大数据重要数据来源,没有物联网飞速发展,就不会带来数据产生方式的变革。物联网也需借助云计算,大数据技术实现物联网大数据的存储分析和处理。
hadoop生态系统
- hdfs:是针对谷歌文件系统的开源实现,hdfs具有处理超大数据,流式处理,可以运行在廉价商用服务器上等优点。
- hbase:是一个提供可靠性,高性能,可伸缩,实时读写,分布式的列示数据库,一般采用hdfs作为其底层数据存储。
- MapReduce:MapReduce是针对谷歌MapReduce的开源实现。是一种用于大规模集群上的并行计算过程。
- Hive:hive是一个基于Hadoop的数据仓库工具,对Hadoop文件中的数据集进行整理,特殊查询和分析存储。
- Pig:是一种数据流语言和运行环境,适合于使用Hadoop和MapReduce平台来查询大型半结构化数据集。
- Mahout:提供一些可扩展的机器学习领域经典算法的实现
- Zookeeper:针对谷歌Chubby的一个开源实现,是高效和可靠的协同工作系统,提供分布式锁之类的基本服务,用于构建分布式应用,减轻分布式应用程序所承担的协调任务。
- Flume:提供的一个高可用,高可靠,分布式的海量日志采集,聚合和传输系统。
- Sqoop:主要用来在Hadoop和关系数据库之间交换数据,可以改进数据的互操作性。
- Ambari(Hue):基于web工具,支持hadoop集群安装,部署,配置和管理,支持大多数Hadoop组件,包括hdfs,MapReduce,Hive,Pig,Hbase,Zookeeper,Sqoop等。
HDFS默认的冗余复制因子是3
HBASE数据模型概述
- hbase是一个稀疏,多维度,排序的映射表,这张表的索引是行键,列族,列限定符和时间戳。
- habse更新操作时,不会删除数据旧的版本,而是生成一个新的版本,旧版本仍保留,可对保留版本数量进行设置
数据模型的相关概念
-
表
-
行
-
列族
-
列限定符
-
单元格
-
时间戳
数据坐标是什么
hbase使用坐标来定位表中的数据,也就是说,每个值都是通过坐标来访问的。
hbase中需要根据行键,列族,列限定符和时间戳来确定一个单元格,因此可以视为一个"四维坐标",即[行键,列族,列限定符