大数据学习文档
一只奋斗的小强
我想把代码写成诗。
展开
-
Apache Zeppelin使用说明
Apache Spark 为数据科学提供了许多有价值的工具。 随着 Apache Spark 强大的 Data Frame API 也可以在 HDP 上使用数据科学家使用数据挖掘和可视化来帮助构造问题架构并对学习进行微调。 Apache Zeppelin 正好能够帮他们做到这些。Zeppelin 是一个基于 Web 的 notebook 服务器。它基于一个解释器的概念, 这个解释器可以绑定到任何语言或数据处理后端。 作为 Zeppelin 后端的一种, Zeppelin 实现了 Spar...原创 2020-08-03 16:37:19 · 488 阅读 · 0 评论 -
实时数据仓库
数据仓库 是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升级和新工具的应用,数据量变的越来越大,数据格式越来越多,决策要求越来越苛刻,数据仓库技术也在不停的发展。数据仓库的趋势:实时数据仓库 以满足实时化&自动化决策需求;大数据&数据湖以.原创 2020-08-03 15:59:16 · 342 阅读 · 0 评论 -
Flink的DataStream学习笔记(后面没看懂)
Flink是一个低延迟、高吞吐的实时计算引擎,其利用分布式一致性快照实现检查点容错机制,并实现了更好的状态管理,Flink可在毫秒级的延迟下处理上亿次/秒的消息或者事件,同时提供了一个Exactly-once的一致性语义,保证了数据的正确性,使得Flink可以提供金融级的数据处理能力,总结其高级特性包括CSTW(CheckPoint,Statue,Time,windows)Flink和Spark对比设计思路Spark的技术理念是基于批来模拟流,微批处理的延时较高(无法优化到秒以下的数量级).原创 2020-08-03 15:20:25 · 340 阅读 · 0 评论 -
Redis,主从结构,主从复制
Redis 支持三种主从结构,分别是:一主对一从 :常用于写请求量很大,并且需要持久化时,只在从节点开启AOF持久化,这样既保证了主节点的性能又保证了数据的安全性;但是当重启主节点时需要注意先断开从节点的复制关系,否则当主节点重启后由于没有持久化数据,所以主节点的数据为空,而此时从节点再同步主节点的数据就会丢失之前持久化的数据。一主对多从 :多用于读请求很高的情况,通过读写分离把读请求交给从节点来分担主节点压力;同时对于开发中的一些危险或耗时的操作也可以在从节点上执行;弊端:当从节点过原创 2020-08-02 23:54:06 · 144 阅读 · 0 评论 -
Redis
Redis 是一个开源的,使用 ANSI C 语言编写的、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库。用作数据库、缓存和消息代理。它通常被称为数据结构服务器,Redis 支持存储的 Value类型包括 String(字符串)、list(链表)、set(集合)、zset(sorted set –有序集合)和 hash(哈希类型),这些数据类型都支持 push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。Redis ...原创 2020-08-02 23:48:39 · 130 阅读 · 0 评论 -
Hive 和 和 RDB 异同
查询语言:由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。 数据存储位置:Hive 是建立在 Hadoop 之上的,所有 Hive 的数据都是存储在 HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。 数据格式:Hive 中没有定义专门的数据格式,数据格式可以由用户指定,用户定义数据格式需要指定三个属性:列分隔符(通常为空格、”\t”、”\x原创 2020-08-02 22:59:06 · 201 阅读 · 0 评论 -
Hive架构
Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具用来数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。Hive 的结构可以分为以下几部分:① ①原创 2020-08-02 22:53:59 · 475 阅读 · 0 评论 -
Hbase
1.HBase是一个构建在 HDFS 上的分布式列存储系统,主要用于海量结构化数据存储,从逻辑上讲,HBase将数据按照表,列,行进行存储。2.HBase 与 与 HDFS 对比两者都具有良好的容错性和扩展性,都可以扩展到成百上千个节点。HDFS适合批处理场景,不支持数据的随机查找,不适合增量数据处理,不支持数据更新;HBase 特点大:一个表可以有数十亿行,上百万列。无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同列。...原创 2020-08-02 20:37:20 · 181 阅读 · 0 评论 -
Zookeeper
优秀博客链接分享:https://blog.csdn.net/gs80140/article/details/514969251.ZooKeeper是分布式系统/软件的协调者,其设计保证分布式程序的健壮性,使得应用开发人员可以更多关注应用本身逻辑,而不是协同工作,ZK是集群的管理者,监视着集群各节点状态,并根据节点的反馈进行下一步合理操作,最终将简单易用的接口和性能高效、功能稳定的系统提供给用户。2.分布式应用程序可以基于 ZooKeeper 实现诸如数据发布/订阅、负载均衡、命名.原创 2020-08-02 19:39:43 · 102 阅读 · 0 评论 -
AM,NM,Container
Application Master (AM ) 管理 YARN 内运行的应用程序的每个实例。 完成数据切分,并为应用程序申请资源并进一步分配给内部任务。 负责协调来自 resource manager的资源,并通过 node manager 监视容易的执行和资源使用情况。Node Manager (NM )Node manager 整个集群有多个,负责每个节点上的资源和使用。负责单个节点上的资源管理和任务,处理来自于 resource manager的命令,处理来自域app mas原创 2020-08-02 18:59:16 · 1147 阅读 · 0 评论 -
Resource manager自学
1.RM 是一个全局的资源管理器,集群中只有一个该角色,负责整个系统的资源管理和分配,包括处理客户端请求、启动/监控 APP master、监控 nodemanager等。它主要由两个组件构成:调度器(Scheduler)和应用程序管理器(Applications Manager,ASM)。调度器调度器根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系统中的资源分配给各个正在运行的应用程序。需要注意的是,该调度器是一个“纯调度器”,它不再从事任何与具体应原创 2020-08-02 18:54:27 · 455 阅读 · 0 评论 -
Yarn自学
在没有 YARN 之前,Hadoop 1.0 版本时候, MapReduce做很多的事情,Job Tracker(作业跟踪者)既做资源管理又做任务调度/监控,Task Tracker 资源划分过于粗,MapReduce 实现任务分配、资源分配、批量计算的框架图如下:首先用户程序 (JobClient) 提交了一个 job,job 的信息会发送到 Job Tracker中,Job Tracker 是 Map-reduce 框架的中心,他首先做任务分配,需要知道数据分布在哪里,这意味着要和 H原创 2020-08-02 18:48:09 · 104 阅读 · 0 评论 -
Hadoop 流自学及工作原理
Hadoop流提供给了 API允许用户使用任何脚本语言编写 map 函数或 reduce函数。Hadoop 流的关键是,它使用 UNIX标准流作为程序与 Hadoop 之间的接口。因此,任何程序只要可以从标准输入流中读取数据,并且可以写入数据到标准输出流,那么就可以通过 Hadoop流使用其他语言编写 MapReduce程序的map函数或 reduce函数。bin/Hadoop jar contrib/streaming/Hadoop-0.20.2-streaming.jar –inpu.原创 2020-07-31 17:30:48 · 265 阅读 · 0 评论 -
Mapreduce自学(9-12没看懂)
MapReduce非常简单,易于实现且扩展性强。可以通过它轻易地编写出同时在多台主机上运行的程序,可以使用 Ruby、Python、PHP 和 C++等非 Java类语言编写 map和 reduce程序。MapReduce适合于处理大量的数据集,因为它会同时被多台主机一起处理,这样通常会有较快的速度。在 Hadoop 中,用于执行 MapReduce任务的机器角色有两个:一个是JobTracker;另一个是 TaskTracker。JobTracker 是用于调度工作的,TaskTrack..原创 2020-07-31 16:58:55 · 120 阅读 · 0 评论 -
HDFS 读写文件
HDFS 读文件1)客户端显式调用 open()函数打开文件。2)后台通过 RPC 调用 NN服务,获取欲打开文件的文件块信息和文件所在的数据节点。3)客户端显式调用 read()函数,从第一个数据块开始读取数据,并选择离客户端最近的那个副本。4)选择离客户端最近的副本后,客户端直接从 DN读取数据。5)当前数据块读完后继续连接此文件下一个数据块最近副本所在的 DN。6)读完数据时,客户端显式调用 close()函数。相对于读取本地文件系统数据,HDFS 读取数据流程较复杂,但对.原创 2020-07-31 16:29:17 · 405 阅读 · 0 评论 -
Hadoop自学
1.什么是Hadoop?Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,它能让用户轻松地开发处理海量数据的应用程序,其主要优点有:高可靠性:Hadoop 按位存储和处理数据的能力值得人们信赖。高扩展性:Hadoop 在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以干计的节点中。高效性:Hadoop 能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。高容错性:Hadoop 自动保存数据的多个副本,并自动将失败任务重分配。低成本原创 2020-07-31 16:16:15 · 288 阅读 · 0 评论 -
Iaas、Paas、SaaS区别
原创 2020-07-31 15:35:00 · 166 阅读 · 0 评论