大数据
大数据
惨猴
The Way To God
展开
-
day01_Flink入门
Flink入门1. Flink执行流程1.1 Standalone版本1.用户提交任务给JobClient2.JobClient发送任务给JobManager3.JobManager返回提交成功4.JobManager将任务分发给TaskManager执行5.TaskManager汇报任务的执行状态给JobManager6.任务执行结束JobManager返回...原创 2020-04-07 17:55:50 · 318 阅读 · 1 评论 -
SparkCore
SparkCore1.RDD的依赖关系1.1RDD的依赖RDD和它依赖的父RDD的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。●如何区分宽窄依赖窄依赖:父RDD的一个分区只会被子RDD的一个分区依赖宽依赖:父RDD的一个分区会被子RDD的多个分区依赖(涉及到shuffle)●面试题:子R...原创 2020-03-28 11:55:31 · 207 阅读 · 0 评论 -
SparkCore之算子
SparkCore1.RDD基本概念RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。什么弹性: 数据呈现的方式是先装在内存中处理,如果内存不够,就将数据存入磁盘上处理 内存+磁盘 2.RDD五大属性源码* Internall...原创 2020-03-24 16:02:53 · 417 阅读 · 0 评论 -
Spark入门
SparkSpark是一种快速、通用、可扩展的大数据分析引擎Spark是基于内存计算的大数据并行计算框架Spark中的Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS...原创 2020-03-24 09:44:09 · 230 阅读 · 0 评论 -
kafka深入理解
kafka深入1 分片与副本机制分片机制:主要解决了单台服务器存储容量有限的问题当数据量非常大的时候,一个服务器存放不了,就将数据分成两个或者多个部分,存放在多台服务器上。每个服务器上的数据,叫做一个分片副本:副本备份机制解决了数据存储的高可用问题当数据只保存一份的时候,有丢失的风险。为了更好的容错和容灾,将数据拷贝几份,保存到不同的机器上。kafka中对于分片...原创 2020-03-10 12:34:07 · 392 阅读 · 0 评论 -
kafka入门
大数据实施框架_kafka1. 消息队列消息队列(Message Queue)是一种应用间的通信方式,消息发送后可以立即返回,有消息系统来确保信息的可靠传递,消息发布者只管把消息发布到MQ中而不管谁来取,消息使用者只管从MQ中取消息而不管谁发布的,这样发布者和使用者都不用知道对方的存在1.1消息队列的应用场景消息队列在实际应用中包括如下四个场景: 1) 应用耦合:...原创 2020-03-09 10:41:19 · 177 阅读 · 1 评论 -
Hbase的shell操作
Hbase shellshell 客户端登录hbase自带的shell客户端,命令如下:bin/hbase shell进入 hbase shell 命令行 如果语法输入错误,请按 ctrle +backspace 删除。语法后面不要加;结束。也可以通过输入两个英文’退出错误的语法页面。1. 查看已有表操作listhbase(main):001:0> li...原创 2020-03-04 08:52:01 · 227 阅读 · 0 评论 -
Hbase入门与安装
Apache Hbase1.概述HBase 是建立在 hadoop hdfs 之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的nosql 数据库支持通过主键 Row key 来检索数据不支持 SQL 语句的查询;不支持 join 等复杂操作;不支持复杂的事务,HBase 中支持的数据类型:byte[]。与 hadoop 一样,HBase 目标主要依靠横向扩展,通...原创 2020-03-04 08:24:59 · 260 阅读 · 0 评论