- 大数据Hadoop、Spark 所要解决核心问题,思想基础:
1、 数据的存储:分布式文件系统(HDFS、HADOOP Disftibuted FILE SYSTEM)
2、 数据的计算:分布式计算 ( MAPREDUCE 分布式计算模型)
google三遍论文提出解决方案:
1、 gfs:google file system --》HDFS 都是分布式文件系统
–NameNode、Seconddary NameNode、dataNode
2、 mapreduce : 问题来源 PageRank
– 什么是Page
把一个大任务,拆分成小任务,再聚合。
3、 BigTable : 大表-----》Nosql数据库:HBase
分布式文件系统的基本原理:
1、分地存储 ,采用数据冗余, HDFS默认冗余3,保存在数据块
2、少硬盘,保存在内存中 数据节点:DATANode
3、管理员 (NameNode) 第二名称节点:Seconddary NameNode
4、至少搭建3台服务器
- 传统数据仓库和大数据数据库的区别:
1、 什么是数据仓库
- 就是一个数据库:oracle、mysql等等
- 一般只做select
2、数据仓库搭建的过程:
1、 数据源:
- 关系型数据库(RDBMS)
- 日志(文本)
- 其他数据源
2、采集(ETL)
3、数据存储仓库(ORACLE)
3、 分析处理(SQL\PLSQL程序)
4、数据集市(DateMarket)
Hadoop就是数据仓库的一种实现方式,采集、数据存储、分析处理、数据集市的步骤。
大数据提供解决方案,步骤中使用不同的工具。
采集工具:sqoop、flume
数据存储工具:HDFS、HBase、Hive
分析工具:MapReduce、Spark
数据集市工具:HDFS、HBASE、HIVE