hadoop了解

最新推荐文章于 2024-10-02 00:27:17 发布

weixin_30408739

最新推荐文章于 2024-10-02 00:27:17 发布

阅读量86

点赞数

文章标签：数据库 java scala

原文链接：http://www.cnblogs.com/huoyuer/p/11160953.html

版权

1、hadoop
hadoop是一个开源项目，语言java,百度都有独立的hadoop系统
spark也是一个开源项目，语言scala，支持java
2、hadoop的两大核心
(1)hdfs
文件存储的分布式系统，一个文件存储为三份，文件安全
(2)mapreduce
分布式计算系统
例如mysql一个表当中存储1亿条数，相当于几十台电脑同时进行计算
select count(*) from 表名
3、hadoop特点
(1)扩容能力扩展能力
假如公司大数据集群有100台服务器，随着数据量增大，当前服务器不能满足要求
就需求扩展机器，hadoop支持即插即用。
（2）成本低
javaWeb
数据库服务器(最少2台，分为主从服务器)：mysql服务器 5-10万 32G内存，固态硬盘10T, 32核，主板
tomcat服务器（至少3台，要建tomcat集群）：2万 tomcat 16G内存，固态硬盘10T, 8核，主板
apache（NGIX）服务器：2万 16G内存，固态硬盘10T, 16核，主板

hadoop机器
name节点（主节点）万 16G内存，固态硬盘10T, 8核，主板
node节点（从节点） 1G内存，固态硬盘10g, 1核，主板 3000-10000左右，二手服务器
（3）高效率
hadoop效率，高效率主要针对于数据量大来说的，假如给你1M
分布式存储
分布式计算

（4）可靠性，稳定性
分布式存储：如果一台机器损坏，还有两个备份
分布式计算：如果一台机器损坏，集群分自动分配任务

关系型数据库
mysql （中小企业，很多大企业也在用）
oracle（全国的公安系统或政府部门）
sqlserver(少)
DB2（全国的烟草行业）

4、主节点、从节点、主从式结构、块、副本
(1)主节点：namenode
从节点(数据节点)：datanode
主从式结构：
主节点负责管理文件系统的文件结构，
从节点负责存储真实的数据，称为主从式结构（master-slaves）
主节点存储：相当于书的目录
那么文件结构：ip地址，盘符文件夹
从节点：存储最终的数据，内容
(2)块副本
block
数据存储到hadoop，数据会分为N块，每个块存为三个副本
例如一个文件256M，分按照128M进行切分，即切分为两块
384M 切分3块每块存储为三个副本

1+2 …… 10 =

每一台机器
map reduce
1+2 = 3
3+4 =7
5+6 =11 = 3+7+11+15+19=55
7+8 =15
9+10 19

转载于:https://www.cnblogs.com/huoyuer/p/11160953.html