自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 资源 (21)
  • 收藏
  • 关注

原创 使用MIT Kerberos Ticket Manager在windows下浏览器访问hadoop页面

kerberos是一种计算机网络认证协议,他能够为网络中通信的双方提供严格的身份验证服务,确保通信双方身份的真实性和安全性。hadoop集群中会常用到kerberos认证,在对hadoop集群施加安全认证过程中,往往会有需要开启对应服务组件Web UI认证的需求。在启用认证后,如果直接使用浏览器打开Web UI页面,都会提示需要进行认证。下面来讲解下在windows下浏览器访问webUI的步骤。

2023-08-08 10:10:22 955

原创 数据仓库系列篇之实现架构

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言前言前言前言

2022-02-11 10:48:00 258

原创 数据仓库系列篇之管理规范

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言前言

2022-02-11 10:47:40 641

原创 数据仓库系列篇之分层思想

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言前言

2022-02-11 10:46:42 265

原创 数据仓库系列篇之基本概述

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言什么是数据仓库数据仓库与数据库的区别为什么要建立数据仓库前言什么是数据仓库数据仓库,是由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出的。数据仓库(Data Warehouse,可简写为DW或DWH),数据仓库是决策支持系统(Decision Support)和联机分析(OLAP)应用数据源的结构化数据环境。数据仓库研究和解决从

2022-02-11 10:44:36 556

原创 Spark Master\Worker、Driver\Executor、Job\Stage\Task等概念与关系

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言前言https://blog.csdn.net/hongmofang10/article/details/84587262https://blog.csdn.net/mys_35088/article/details/80864092?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefau

2021-08-17 17:15:26 1400

原创 HDFS Block块大小限定依据及原则

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言前言

2021-08-17 11:18:11 7378

原创 Spark on Yarn用执行流程图解(包含stage流程)

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言前言

2021-08-11 16:44:25 4924

原创 Spark RDD等中cache()和persist()区别及持久化级别、策略选择

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言前言

2021-08-02 16:39:03 512

原创 Spark DataFrame中insertInto()与saveAsTable()区别及动态分区插入hive表使用设置

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言insertInto()saveAsTable()动态分区参数设置动态分区代码实现前言在spark应用开发中,会经常需要将数据清洗后的结果,插入HIVE表中。而针对数据落表,官方提供了几种插入方式,具体有insertInto,saveAsTable,调用spark sql。下面我们一一讲解他们的区别。insertInto()保存DataFra

2021-04-28 10:18:30 10209 5

原创 Spark DataFrame中na.drop()、drop()、filter(col.isNotNull())、filter(col.isNull())区别

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言前言awk是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件,或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk有很多内建的功能,比如数组、函数等,这是它和C语言的相同之处,灵活性

2021-04-13 10:24:51 4441

原创 Hive表小文件治理方案

@Date : 2020-04-23@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058Hive小文件治理方案方案1方案2方案1方案2

2020-04-23 17:10:15 1494 2

原创 拉链表的实现原理与查询方式

@Date : 2020-03-31@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058这里写自定义目录标题原理区别原理区别

2020-03-31 19:39:59 5087 1

原创 Spark算子分类详解

@Date : 2019-07-12@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058[TOC]0 算子常见分类从大方向来说,Spark算子大致可以分为以下两类:Transformation变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操...

2019-07-12 19:33:41 515

原创 Spark-streaming kafka数据接收两种方式

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录1 Receiver-based Approach2 Direct Approach (No Receivers)1 Receiver-based Approachimport org.apache.spark.streaming.kafka._ ...

2018-10-14 21:55:41 366

转载 Spark的join实现的3种方式(与Hive中的join对比)

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录1 Spark的join与Hive的join对比1.1 数据准备1.2 Hive的join、left outer join、right outer join1.3 Spark的join、leftOuterJoin、rightOuterJoin2 Spar...

2018-10-14 21:54:51 2311

原创 Spark算子groupbykey与reducebykey区别

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录0 算子reducebykey1 算子groupbykey0 算子reducebykeyreduceByKey,相较于普通的shuffle操作(比如groupByKey),它的一个特点,就是说,会进行map端的本地聚合。对map端给下个stage每...

2018-10-14 21:53:42 665

原创 Spark的shuffle过程详解

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录0 hadoop的shuffle与spark的shuffle的简单比较1 spark的shuffle1.1 shuffle write1.1.1 第一种方法1.1.2 第二种方法:FileConsolidation方法1.2 shuffle reade1...

2018-10-14 21:49:27 656

原创 Spark Streaming与Kafka数据一致性

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058[TOC]当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性,你需要满足以下几个先决条件:输入的数据来自可靠的数据源和可靠的接收器;应用程序的metadata被app...

2018-10-14 21:37:04 1288

原创 Spark原理框架和作业执行流程

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录0 Hadoop与Spark的对比关系1 Spark原理框架1.1 框架1.2 相关术语解释1.3 RDD1.3.1 窄依赖与宽依赖1.3.2 DAG(有向无环图)与DAGScheduler(有向无环图调度器)1.3.3 Transformation函数...

2018-10-14 21:36:07 814

原创 Hash函数及其冲突解决

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录常用的hash函数直接取余法乘法取整法平方取中法直接寻址法数字分析法折叠法随机数法处理冲突的方法开放定址法线性探查法平方探查法伪随机序列法双哈希函数法(再散列法)链地址法(拉链法)建立一个公共溢出区常用的hash函数直接取余法取关键字被某个不大于散...

2018-10-07 11:09:15 397

原创 Hbase读写数据过程详解(hbase0.96版本之前与hbase0.96版本之后对比)

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录HBase架构图-ROOT-和.META.结构-ROOT-.META.两表关系(hbase0.96版本之前,之后删除了-ROOT-表)写数据过程读数据过程HBase各个模块功能HBase架构图-ROOT-和.META.结构从存储结构和操...

2018-10-07 11:05:34 1572

原创 Drop_Delete_Truncate区别(Hive SQL与MySQL对比)

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录不同方面对比deletedroptruncat适用场景Hive中的操作(drop、truncat)不同方面对比DML:data maintain LanguageDLL:data define language操作操作类型功能表...

2018-10-07 11:04:53 2014

原创 Hbase热点问题

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录Hbase结构及rowkeyHbase结构行健RowKey热点/数据倾斜问题数据倾斜的解决方法rowkey设计原则预分区splitkeys选取Column Family列族的设计数量不宜过多(建议不设置多个)一对多设计和宽表Hbase结构及rowkey...

2018-10-07 11:04:07 1705 1

原创 Hbase与Hive数据同步

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录同步过程同步过程在Hbase中创建一张表create ‘user_sysc’, {NAME => ‘info’};在hive中运行如下,从而创建一个外部表user_sysc:# 在hive中创建一个外表CREATE EXTERNAL ...

2018-10-07 11:03:20 3586

原创 ZooKeeper自身数据一致性

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录0 前言1 ZK数据一致性1.1 ZK选举1.2 ZK原子广播机制(ZAB协议)1.2.1 广播模式1.2.2 恢复模式1.2.3 Paxos与Zab一致性对比1.3 ZK数据同步机制1.3.1 同步准备1.3.2 同步初始化1.3.3 数据同步场景ZK...

2018-10-07 11:02:07 2700 1

原创 ZooKeeper在Kafka中的作用

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录Broker注册Topic注册生产者负载均衡消费者负载均衡消费分区与消费者的关系消息消费进度Offset记录消费者注册Broker注册Broker是分布式部署并且相互之间相互独立,但是需要有一个注册系统能够将整个集群中的Broker管理起来,此时就使...

2018-10-07 11:01:24 661

原创 ZooKeeper故障处理

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录Zookeeper一般会出现以下两种故障Zookeeper故障监控Zookeeper故障处理Zookeeper服务搭建Zookeeper一般会出现以下两种故障Zookeeper进程挂掉;Zookeeper进程还在,但不提供服务;(提示:This ...

2018-10-07 11:00:39 811

原创 不同Hive SQL下转换成MapReduce的情况

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058[TOC]Hive概念Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。Ma...

2018-10-07 10:58:54 2338

原创 从kafka中自定义处开始获取数据

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录从开头处获取数据从当前最新获取数据从上次断开处获取数据从指定offset处获取数据从指定时刻获取数据三种情况的消费者不同使用方式下,消费者提交offset的情况进行了归总和说明:从开头处获取数据配置设置设置auto.offset.reset...

2018-10-06 22:10:54 1056

原创 Flume、Kafka、Hbase、Hive适用场景

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录Flume、Kafka适用场景Hbase适用场景Hive适用场景Flume、Kafka适用场景Kafka、Flume都可以实现数据的传输,但它们的侧重点不同。Kafka追求的是高吞吐量、高负载(topic下可以有多个partition)Flu...

2018-10-06 22:10:11 1633

原创 Kafka中多个partition怎么保证跨区消费是有序的

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录官方说明解决方法官方说明这个问题严格来说是肯定有的,kafka只能保证分区内的有序性。下面是kafka作者Jay Kreps的blog中介绍kafka设计思想的一段话:Each partition is a totally ordered l...

2018-10-06 22:08:57 11833 3

原创 Kafka数据一致性

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录数据存储Topic逻辑结构多Parition的优点/缺点Partition存储结构根据offset查找msg的过程Partition recovery过程数据的同步数据流数据可靠性保证数据一致性保证HDFS数据组织数据存储Topic逻辑结构Top...

2018-10-06 22:05:40 690

原创 Flume到Kafka且均分到多个partition

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录说明情况解决方法说明情况Flume向kafka发布数据时,发现kafka接收到的数据总是在一个partition中,而我们希望发布来的数据在所有的partition平均分布。应该怎么做呢?解决方法Flume的官方文档是这么说的:Kafka S...

2018-10-06 22:03:09 859

原创 Flume怎么保证数据传输的完整性

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录Flume的事物机制Flume的At-least-once提交方式Flume的批处理机制channel配置说明Flume的事物机制Flume使用两个独立的事务分别负责从soucrce到channel,以及从channel到sink的事件传递。比...

2018-10-06 21:59:25 7017 1

原创 MapReduce的数据倾斜及其优化方式

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录MapReduce的数据倾斜和解决方式数据倾斜解决方法MapReduce的优化方式MapReduce的数据倾斜和解决方式数据倾斜根据MapReduce的执行流程以发现,在map端是不会产生数据倾斜的,因为它会根据分片规则将数据进行均匀的切分成一个个...

2018-10-06 21:56:33 701

原创 HDFS存储的优缺点

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录HDFS优点HDFS缺点HDFS优点高容错性:数据自动保存多个副本,副本丢失后,自动恢复;适合批处理:移动计算而飞数据。数据位置暴露给计算框架;适合大数据处理:GB,TB,设置PB级数据。百万规模以上文件数量。10K+节点规模。流式文件访问:...

2018-10-06 21:55:39 611

原创 MapReduce模型过程详解

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录MapReduce过程从客户端、jobTracker、taskTracker角度讲(MapReduce作业运行流程)从map、reduce阶段讲(Map、Reduce任务中Shuffle和排序的过程)指定map和reduce的数量shuffle中的sor...

2018-10-06 21:55:02 1253

原创 ZooKeeper动态添加或删除节点

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录配置需求动态添加节点动态删除节点配置需求序号目前配置myid需求配置myid01server.1=10.1.3.6:2881:38811server.1=10.1.3.6:2881:3881102serve...

2018-10-05 11:39:19 10451 1

原创 Linux之awk命令详解

@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录awk命令格式awk脚本基本格式awk执行过程分析awk内置变量将外部变量值传递给awkawk运算awk高级输入输出循环结构数组等awk实例awk命令格式awk是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(...

2018-10-03 21:39:18 2642

siliconsmart ACE user guide 2016

此文档为电子档pdf,文档名称为《siliconsmart ACE user guide 2016》。为Synopsys公司的siliconsmart软件的用户手册,此软件主要用于liberate的特征提取,包括标准单元、IO单元、RAM等

2019-05-21

Fast Data Processing with Spark 2nd Edition.pdf

此电子版文档为Fast Data Processing with Spark 2nd Edition,格式为pdf。英文超清晰版。

2018-08-09

Scala Spark Bindings.pdf

此电子版文档为Scala Spark Bindings,格式为pdf。英文超清晰版。

2018-08-09

Learning Spark 2015版.pdf

此电子版文档为learning spark,格式为pdf。英文超清晰版。

2018-08-09

计算机网络第五版答案完整版.pdf

此电子版文档为计算机网络第五版答案解析,格式为pdf。

2018-07-27

Storm实时数据处理.pdf

此电子版文档为Storm实时数据处理,格式为pdf。中文超清晰版。

2018-07-27

Maout实战指南.pdf

此电子版文档为Maout实战指南,格式为pdf。中文版,扫描版。

2018-07-27

[中文]酷狗架构.pdf

此电子版文档为酷狗架构讲解,格式为pdf。内容讲解了酷狗大数据采集、接入、清洗、作业调度、平台监控以及踩过的坑。

2018-07-27

Hadoop权威指南第3版修订版中文版

此电子版文档为Hadoop权威指南第3版修订版中文版,格式为pdf。

2018-07-27

hadoop之wordcount例程代码

该代码为hadoop的经典wordcount代码,java实现。代码里有详细注解,适合于入学者。

2018-07-27

剑指offer题解(java版)

此电子版是剑指offer题解,里面收录了大量的经典题目,并且有详细解析,而且是java版的~

2018-07-27

zeromq-4.2.1.tar.gz (包括安装包和zeromq\jzmq教程)

ZeroMQ(也说明 ØMQ,0MQ 或 ZMQ)是一个高性能的异步消息库,旨在使用分布式或并行应用程序。它提供了一个消息队列,但 不同于面向消息的中间件,一个 ZeroMQ 系统可以在没有专用运行消息代理。jzmq安装包,本人也有资源。

2018-07-22

jzmq-master.zip

ZooKeeper 用于管理集群中的不同组件,ØMQ 是内部消息系统,JZMQ 是 ØMQ 的 Java Binding。ZeroMQ 是用 C++编写的,而 jzmq 就充当了 Java 与 C++之间的桥梁。ZeroMQ的安装包,本人上传也有资源。

2018-07-22

SecureCRT和SecureFX32位安装包

用于远程访问的软件,简称CRT,可用于虚拟机与主机或物理机与主机的远程访问软件,此包为CRT的32位包。

2018-06-17

SecureCRT和SecureFX64位安装包

用于远程访问的软件,简称CRT,可用于虚拟机与主机或物理机与主机的远程访问软件,此包为CRT的64位包。

2018-06-17

Google三大论文中英文

google三大论文,是mapreduce的开始,也是大数据思想、分布式解决思想的开始。在此提供google的三大论文的中英文版,可方便查看和打印使用。

2018-05-08

ARMA模型与ARIMA模型java实现例程

ARMA、ARIMA、AR、MA均是时间序列的重要方法。此例程中包含了以上所有的实现过程,java实现的,且含有main函数供自行调试,已亲测可用!

2018-05-08

遗传算法经典Java实现

遗传算法是解决最优解的。其代码是java实现,且有main函数可以方便自行调试查看运行结果。

2018-04-12

离散数学第三版 方世昌 课后答案

离散数学_第三版_(方世昌_著)_西安电子科技大学出版 课后答案

2013-10-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除