个人对大数据概念的理解(知识结构)

大数据的产生:
为了解决数据量过大的问题
1)垂直扩展 :增加自己的硬件设施 但设备终归有极限;
2)横向扩展 :由多个服务器所一台一台连接起来的扩展方式,没有瓶颈,可以无限扩展,简单廉价的服务器或者PC端就可以

大数据的起源(鼻祖):google 的三大论文

GFS -------产生 HDFS分布式文件系统(分布式的存储)
MapReduce ---------分布式的处理
BigData --------- HBase (简单理解为仓库)

官网:https://hadoop.apache.org

Common ------- 里面类似于一些命令
YARN ------数据调度和集群资源管理的框架
HDFS --------综上
MapReduce -------综上 ------批处理

其他的一些项目:
Spark -----用于Hadoop数据的 快速通用计算引擎

1)spark core
2) sparkSQL —可以使用sql处理
3)sparkStreaming — 流式处理
4)mllib ----机器学习库
5) graphx -----spark停止维护

用于支撑HADOOP运行起来的技术
1)kafka
2) zookeeper—协调服务
3) flume 类似kafka ,但速度比kafka快,往往和KAFKA结合起来用
4) hive ------大型数据库 ----sql语句(专门用sql语句对大数据进行整合)
5)flink
6) storm
7) hbase

注:以上为市面上用的比较多的主流技术

补:HDFS的个人理解 (主从架构)
拿班级来举例子
班长----主节点(Namenode)
成员----从节点(Datanode)
学委---- client(可有可无)

存文件 -------hdfs的读写机制
读文件 -------hdfs的读写机制
备份-------为了解决安全问题

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值