小学僧来啦-CSDN博客

原创使用MIT Kerberos Ticket Manager在windows下浏览器访问hadoop页面

kerberos是一种计算机网络认证协议，他能够为网络中通信的双方提供严格的身份验证服务，确保通信双方身份的真实性和安全性。hadoop集群中会常用到kerberos认证，在对hadoop集群施加安全认证过程中，往往会有需要开启对应服务组件Web UI认证的需求。在启用认证后，如果直接使用浏览器打开Web UI页面，都会提示需要进行认证。下面来讲解下在windows下浏览器访问webUI的步骤。

2023-08-08 10:10:22 955

原创数据仓库系列篇之实现架构

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言前言前言前言

2022-02-11 10:48:00 258

原创数据仓库系列篇之管理规范

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言前言

2022-02-11 10:47:40 641

原创数据仓库系列篇之分层思想

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言前言

2022-02-11 10:46:42 265

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言什么是数据仓库数据仓库与数据库的区别为什么要建立数据仓库前言什么是数据仓库数据仓库，是由数据仓库之父比尔·恩门（Bill Inmon）于1990年提出的。数据仓库（Data Warehouse，可简写为DW或DWH），数据仓库是决策支持系统（Decision Support）和联机分析（OLAP）应用数据源的结构化数据环境。数据仓库研究和解决从

2022-02-11 10:44:36 556

原创 Spark Master\Worker、Driver\Executor、Job\Stage\Task等概念与关系

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言前言https://blog.csdn.net/hongmofang10/article/details/84587262https://blog.csdn.net/mys_35088/article/details/80864092?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefau

2021-08-17 17:15:26 1400

原创 HDFS Block块大小限定依据及原则

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言前言

2021-08-17 11:18:11 7378

原创 Spark on Yarn用执行流程图解（包含stage流程）

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言前言

2021-08-11 16:44:25 4924

原创 Spark RDD等中cache()和persist()区别及持久化级别、策略选择

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言前言

2021-08-02 16:39:03 512

原创 Spark DataFrame中insertInto()与saveAsTable()区别及动态分区插入hive表使用设置

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言insertInto()saveAsTable()动态分区参数设置动态分区代码实现前言在spark应用开发中，会经常需要将数据清洗后的结果，插入HIVE表中。而针对数据落表，官方提供了几种插入方式，具体有insertInto，saveAsTable，调用spark sql。下面我们一一讲解他们的区别。insertInto()保存DataFra

2021-04-28 10:18:30 10209 5

原创 Spark DataFrame中na.drop()、drop()、filter(col.isNotNull())、filter(col.isNull())区别

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言前言awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。awk有很多内建的功能，比如数组、函数等，这是它和C语言的相同之处，灵活性

2021-04-13 10:24:51 4441

原创 Hive表小文件治理方案

@Date : 2020-04-23@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058Hive小文件治理方案方案1方案2方案1方案2

2020-04-23 17:10:15 1494 2

原创拉链表的实现原理与查询方式

@Date : 2020-03-31@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058这里写自定义目录标题原理区别原理区别

2020-03-31 19:39:59 5087 1

原创 Spark算子分类详解

@Date : 2019-07-12@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058[TOC]0 算子常见分类从大方向来说，Spark算子大致可以分为以下两类:Transformation变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。Transformation 操...

2019-07-12 19:33:41 515

原创 Spark-streaming kafka数据接收两种方式

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录1 Receiver-based Approach2 Direct Approach (No Receivers)1 Receiver-based Approachimport org.apache.spark.streaming.kafka._ ...

2018-10-14 21:55:41 366

转载 Spark的join实现的3种方式(与Hive中的join对比)

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录1 Spark的join与Hive的join对比1.1 数据准备1.2 Hive的join、left outer join、right outer join1.3 Spark的join、leftOuterJoin、rightOuterJoin2 Spar...

2018-10-14 21:54:51 2311

原创 Spark算子groupbykey与reducebykey区别

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录0 算子reducebykey1 算子groupbykey0 算子reducebykeyreduceByKey，相较于普通的shuffle操作(比如groupByKey)，它的一个特点，就是说，会进行map端的本地聚合。对map端给下个stage每...

2018-10-14 21:53:42 665

原创 Spark的shuffle过程详解

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录0 hadoop的shuffle与spark的shuffle的简单比较1 spark的shuffle1.1 shuffle write1.1.1 第一种方法1.1.2 第二种方法：FileConsolidation方法1.2 shuffle reade1...

2018-10-14 21:49:27 656

原创 Spark Streaming与Kafka数据一致性

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058[TOC]当我们正确地部署好Spark Streaming，我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性，你需要满足以下几个先决条件：输入的数据来自可靠的数据源和可靠的接收器；应用程序的metadata被app...

2018-10-14 21:37:04 1288

原创 Spark原理框架和作业执行流程

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录0 Hadoop与Spark的对比关系1 Spark原理框架1.1 框架1.2 相关术语解释1.3 RDD1.3.1 窄依赖与宽依赖1.3.2 DAG(有向无环图)与DAGScheduler(有向无环图调度器)1.3.3 Transformation函数...

2018-10-14 21:36:07 814

原创 Hash函数及其冲突解决

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录常用的hash函数直接取余法乘法取整法平方取中法直接寻址法数字分析法折叠法随机数法处理冲突的方法开放定址法线性探查法平方探查法伪随机序列法双哈希函数法(再散列法)链地址法(拉链法)建立一个公共溢出区常用的hash函数直接取余法取关键字被某个不大于散...

2018-10-07 11:09:15 397

原创 Hbase读写数据过程详解(hbase0.96版本之前与hbase0.96版本之后对比)

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录HBase架构图-ROOT-和.META.结构-ROOT-.META.两表关系(hbase0.96版本之前，之后删除了-ROOT-表)写数据过程读数据过程HBase各个模块功能HBase架构图-ROOT-和.META.结构从存储结构和操...

2018-10-07 11:05:34 1572

原创 Drop_Delete_Truncate区别(Hive SQL与MySQL对比)

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录不同方面对比deletedroptruncat适用场景Hive中的操作(drop、truncat)不同方面对比DML:data maintain LanguageDLL:data define language操作操作类型功能表...

2018-10-07 11:04:53 2014

原创 Hbase热点问题

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录Hbase结构及rowkeyHbase结构行健RowKey热点/数据倾斜问题数据倾斜的解决方法rowkey设计原则预分区splitkeys选取Column Family列族的设计数量不宜过多（建议不设置多个）一对多设计和宽表Hbase结构及rowkey...

2018-10-07 11:04:07 1705 1

原创 Hbase与Hive数据同步

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录同步过程同步过程在Hbase中创建一张表create ‘user_sysc’, {NAME => ‘info’}；在hive中运行如下，从而创建一个外部表user_sysc：# 在hive中创建一个外表CREATE EXTERNAL ...

2018-10-07 11:03:20 3586

原创 ZooKeeper自身数据一致性

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录0 前言1 ZK数据一致性1.1 ZK选举1.2 ZK原子广播机制(ZAB协议)1.2.1 广播模式1.2.2 恢复模式1.2.3 Paxos与Zab一致性对比1.3 ZK数据同步机制1.3.1 同步准备1.3.2 同步初始化1.3.3 数据同步场景ZK...

2018-10-07 11:02:07 2700 1

原创 ZooKeeper在Kafka中的作用

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录Broker注册Topic注册生产者负载均衡消费者负载均衡消费分区与消费者的关系消息消费进度Offset记录消费者注册Broker注册Broker是分布式部署并且相互之间相互独立，但是需要有一个注册系统能够将整个集群中的Broker管理起来，此时就使...

2018-10-07 11:01:24 661

原创 ZooKeeper故障处理

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录Zookeeper一般会出现以下两种故障Zookeeper故障监控Zookeeper故障处理Zookeeper服务搭建Zookeeper一般会出现以下两种故障Zookeeper进程挂掉；Zookeeper进程还在，但不提供服务；（提示：This ...

2018-10-07 11:00:39 811

原创不同Hive SQL下转换成MapReduce的情况

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058[TOC]Hive概念Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的Hive ETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。Ma...

2018-10-07 10:58:54 2338

原创从kafka中自定义处开始获取数据

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录从开头处获取数据从当前最新获取数据从上次断开处获取数据从指定offset处获取数据从指定时刻获取数据三种情况的消费者不同使用方式下，消费者提交offset的情况进行了归总和说明：从开头处获取数据配置设置设置auto.offset.reset...

2018-10-06 22:10:54 1056

原创 Flume、Kafka、Hbase、Hive适用场景

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录Flume、Kafka适用场景Hbase适用场景Hive适用场景Flume、Kafka适用场景Kafka、Flume都可以实现数据的传输，但它们的侧重点不同。Kafka追求的是高吞吐量、高负载（topic下可以有多个partition）Flu...

2018-10-06 22:10:11 1633

原创 Kafka中多个partition怎么保证跨区消费是有序的

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录官方说明解决方法官方说明这个问题严格来说是肯定有的，kafka只能保证分区内的有序性。下面是kafka作者Jay Kreps的blog中介绍kafka设计思想的一段话：Each partition is a totally ordered l...

2018-10-06 22:08:57 11833 3

原创 Kafka数据一致性

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录数据存储Topic逻辑结构多Parition的优点/缺点Partition存储结构根据offset查找msg的过程Partition recovery过程数据的同步数据流数据可靠性保证数据一致性保证HDFS数据组织数据存储Topic逻辑结构Top...

2018-10-06 22:05:40 690

原创 Flume到Kafka且均分到多个partition

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录说明情况解决方法说明情况Flume向kafka发布数据时，发现kafka接收到的数据总是在一个partition中，而我们希望发布来的数据在所有的partition平均分布。应该怎么做呢？解决方法Flume的官方文档是这么说的：Kafka S...

2018-10-06 22:03:09 859

原创 Flume怎么保证数据传输的完整性

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录Flume的事物机制Flume的At-least-once提交方式Flume的批处理机制channel配置说明Flume的事物机制Flume使用两个独立的事务分别负责从soucrce到channel，以及从channel到sink的事件传递。比...

2018-10-06 21:59:25 7017 1

原创 MapReduce的数据倾斜及其优化方式

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录MapReduce的数据倾斜和解决方式数据倾斜解决方法MapReduce的优化方式MapReduce的数据倾斜和解决方式数据倾斜根据MapReduce的执行流程以发现，在map端是不会产生数据倾斜的，因为它会根据分片规则将数据进行均匀的切分成一个个...

2018-10-06 21:56:33 701

原创 HDFS存储的优缺点

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录HDFS优点HDFS缺点HDFS优点高容错性：数据自动保存多个副本，副本丢失后，自动恢复；适合批处理：移动计算而飞数据。数据位置暴露给计算框架；适合大数据处理：GB，TB，设置PB级数据。百万规模以上文件数量。10K+节点规模。流式文件访问：...

2018-10-06 21:55:39 611

原创 MapReduce模型过程详解

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录MapReduce过程从客户端、jobTracker、taskTracker角度讲(MapReduce作业运行流程)从map、reduce阶段讲(Map、Reduce任务中Shuffle和排序的过程)指定map和reduce的数量shuffle中的sor...

2018-10-06 21:55:02 1253

原创 ZooKeeper动态添加或删除节点

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录配置需求动态添加节点动态删除节点配置需求序号目前配置myid需求配置myid01server.1=10.1.3.6:2881:38811server.1=10.1.3.6:2881:3881102serve...

2018-10-05 11:39:19 10451 1

原创 Linux之awk命令详解

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录awk命令格式awk脚本基本格式awk执行过程分析awk内置变量将外部变量值传递给awkawk运算awk高级输入输出循环结构数组等awk实例awk命令格式awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(...

2018-10-03 21:39:18 2642