- 博客(4)
- 资源 (2)
- 收藏
- 关注
原创 大数据组件----HDFS架构介绍
HDFS简介 1、HDFS来源于Google的GFS,是分布式文件存储系统。2、解决了低成本存储大数据量的文件的问题(块),以及防止数据丢失(hdfs的副本)的问题3、什么是分布式?多个计算机节点协同完成一个任务(以hdfs读取一个文件为例:当客户端要读取一个文件时,要多个节点同时读取这个文件的块信息进行组装,将组装好的文件返回给客户端) HDFS架构以及各个节点的作用...
2019-07-24 19:02:06 505
原创 大数据组件---HBASE
HBASE简介 1、Hbase是一个非关系型分布式数据库(NoSQL)--BigTable(参考的是谷歌)2、高可靠(采用主从架构,使用zookeeper管理)、高性能(分布式并行处理)、面向列、可伸缩(可新增子节点)3、采用HDFS作为文件存储系统(也可以采用其它的文件存储系统,没集成MR计算的功能)4、Hbase擅长查询数据(这里的查询是指将指定的数据按数据库的格式拿出显示...
2019-07-16 21:41:10 212
原创 大数据组件---Hive
Hive 简介 以下的请深刻理解,如果理解不清楚请别看下一部分!1、Hive可以将结构化数据文件映射为一张数据库的表(这一句必须要理解),是一个数据仓库工具()结构化的数据 -------> 数据库的表就是将 txt文件中的类容当成数据库的一张表进行操作数据仓库工具------>这个需要实际的项目经验接触就可以理解了当前可以不用理解。相信前面的你已经理解...
2019-07-11 10:23:47 505
原创 Hadoop、HDFS 、MR 、HIVE等通俗理解
目录 Hadoop HIVE HBASE KAFKA FLUME STORM SCALA SPARK Hadoop HDFS MapReduceHDSF:分布式文件系统简单理解就是存储文件的系统,就像百度云盘一样的东西。我们搭建好HDFS就相当于自己做了一个百度云盘,就可以将我们自己的一些文件上传到自己的HDFS中。MapReduce:分布式...
2019-07-08 17:56:00 3653 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人