Bigdata
小炫锋
这个作者很懒,什么都没留下…
展开
-
大数据笔记之Hadoop(HDFS)
HDFS 概述定义: HDFS 是一个分布式文件管理系统,用来存储文件,通过目录树来定位文件;由多个服务器联合起来实现其功能,集群中的服务器由各自的角色。应用场景: 适合一次写入多次读写的场景,支持追加、不支持修改。适合用来做数据分析,不适合做网盘使用HDFS 优缺点优点高容错性: 通过增加副本的形式提高容错性,数据自动保存多个副本;某个副本丢失后,可自动恢复。适合处理大数据: 数...原创 2020-01-17 12:24:24 · 329 阅读 · 0 评论 -
大数据笔记之Flume原理
概述定义Flume是 Cloudera 提供的一个高可用的、高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式框架,灵活简单。组成架构Agent: Agent 是一个 JVM 进程,它以事件的形式将数据从源头发送至目的地,是 Flume 数据传输的基本单元。Agent主要由三部分组成: Source、Channel、SinkSource: Source 是负责接...原创 2020-01-11 10:30:28 · 301 阅读 · 0 评论 -
大数据笔记之Zookeeper
概述Zookeeper是一个开源的分布式的并且为分布式应用提供协调服务的 Apache 项目。Zookeeper工作机制功能管理(存储、读取)用户提交的数据为用户程序提供数据节点的监听服务Zookeeper特点一个leader,多个follower集群中只要有半数以上节点存活,Zookeeper集群就能正常服务全局一致性:每个Server保存一份相同的数据副本更新请求顺序进...原创 2020-01-10 21:09:35 · 168 阅读 · 0 评论 -
大数据笔记之Redis
Redis简介redis是一个开源的使用 C 语言编写,支持网络,基于内存并且可持久化的日志 K-V 非关系型数据库。支持多种语言的API。支持多种数据类型(String、List、Set等)Redis应用场景缓存: 当系统接口比较慢时,可以把系统数据接口的数据缓存起来,下次可直接从缓存中读取。数据存储: redis有两种持久化机制【AOF和RDB】,可以将数据持久化到硬盘中,保证数据...原创 2020-01-10 19:20:17 · 187 阅读 · 0 评论 -
大数据笔记之Habse
什么是HbaseHBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBASE 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。特点海量存储适合存储PB级别的海量数据,在PB级别的数据以及采用廉价PC存储的情况下,能在几十到百毫秒内返回数据。列式存储这里的列式存储其实说的是列族存储,Hbase 是根据列族来存储数据的。极易扩展一是基于上层处理...原创 2020-01-09 09:55:41 · 582 阅读 · 0 评论 -
大数据笔记之Spark Core
Spark概述定义:spark是一种基于内存的快速、通用、可扩展的大数据分析引擎。内置模块:Spark Core:实现spark的基本功能,包括任务调度、内存管理、错误恢复、与存储系统交互等。还包含了对弹性分布式数据集RDD的定义Spark SQL:是Spark用来操作结构化数据的程序包。Spark Streaming:是Spark提供的对实时数据进行流式计算的组件。Spark M...原创 2020-01-08 20:17:00 · 328 阅读 · 0 评论