Bigdata
小炫锋
这个作者很懒,什么都没留下…
展开
-
大数据笔记之Hadoop(HDFS)
HDFS 概述 定义: HDFS 是一个分布式文件管理系统,用来存储文件,通过目录树来定位文件;由多个服务器联合起来实现其功能,集群中的服务器由各自的角色。 应用场景: 适合一次写入多次读写的场景,支持追加、不支持修改。适合用来做数据分析,不适合做网盘使用 HDFS 优缺点 优点 高容错性: 通过增加副本的形式提高容错性,数据自动保存多个副本;某个副本丢失后,可自动恢复。 适合处理大数据: 数...原创 2020-01-17 12:24:24 · 279 阅读 · 0 评论 -
大数据笔记之Flume原理
概述 定义 Flume是 Cloudera 提供的一个高可用的、高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式框架,灵活简单。 组成架构 Agent: Agent 是一个 JVM 进程,它以事件的形式将数据从源头发送至目的地,是 Flume 数据传输的基本单元。 Agent主要由三部分组成: Source、Channel、Sink Source: Source 是负责接...原创 2020-01-11 10:30:28 · 256 阅读 · 0 评论 -
大数据笔记之Zookeeper
概述 Zookeeper是一个开源的分布式的并且为分布式应用提供协调服务的 Apache 项目。 Zookeeper工作机制 功能 管理(存储、读取)用户提交的数据 为用户程序提供数据节点的监听服务 Zookeeper特点 一个leader,多个follower 集群中只要有半数以上节点存活,Zookeeper集群就能正常服务 全局一致性:每个Server保存一份相同的数据副本 更新请求顺序进...原创 2020-01-10 21:09:35 · 135 阅读 · 0 评论 -
大数据笔记之Redis
Redis简介 redis是一个开源的使用 C 语言编写,支持网络,基于内存并且可持久化的日志 K-V 非关系型数据库。支持多种语言的API。支持多种数据类型(String、List、Set等) Redis应用场景 缓存: 当系统接口比较慢时,可以把系统数据接口的数据缓存起来,下次可直接从缓存中读取。 数据存储: redis有两种持久化机制【AOF和RDB】,可以将数据持久化到硬盘中,保证数据...原创 2020-01-10 19:20:17 · 162 阅读 · 0 评论 -
大数据笔记之Habse
什么是Hbase HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBASE 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。 特点 海量存储 适合存储PB级别的海量数据,在PB级别的数据以及采用廉价PC存储的情况下, 能在几十到百毫秒内返回数据。 列式存储 这里的列式存储其实说的是列族存储,Hbase 是根据列族来存储数据的。 极易扩展 一是基于上层处理...原创 2020-01-09 09:55:41 · 525 阅读 · 0 评论 -
大数据笔记之Spark Core
Spark概述 定义 :spark是一种基于内存的快速、通用、可扩展的大数据分析引擎。 内置模块: Spark Core:实现spark的基本功能,包括任务调度、内存管理、错误恢复、与存储系统交互等。还包含了对弹性分布式数据集RDD的定义 Spark SQL:是Spark用来操作结构化数据的程序包。 Spark Streaming:是Spark提供的对实时数据进行流式计算的组件。 Spark M...原创 2020-01-08 20:17:00 · 278 阅读 · 0 评论