自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

迷的博客

技术博客

  • 博客(214)
  • 资源 (6)
  • 收藏
  • 关注

原创 Flink攻略宝典

Flink教程目录做了很久的实时流开发,但是从来没有系统的去做一个技术总结,所以已此篇为起点将逐步写一些关于Flink相关的教程一、Flink介绍1.1 Flink简介二、Flink的运行架构2.1 Flink运行组件2.2 Flink任务提交2.3 Flink调度原理2.4 其他架构相关知识点三、算子篇四、Flink Window API五、Flink中的时间语义和Wate...

2020-05-13 22:12:23 193

原创 数据结构与算法教程目录

一、数据结构1.1 数据结构---------数组1.2 数据结构---------链表1.3 数据结构---------二叉树二、算法2.1 最通俗易懂的--------时间复杂度2.2 简单介绍--------空间复杂度2.3 稳定排序和不稳定排序2.4 数据结构内部排序和外部排序2.5 查找算法--------二分查找算法2.6 排序算法--------Shell排序(希...

2019-02-05 13:56:31 1809

原创 大数据之Hadoop目录

说在前面的话 适合有java基础、Linux基础、具有一定java开发经验的人!参考的资料 Hadoop官方参考资料:https://blog.csdn.net/qq_39657909/article/details/84581147 如果你想学习Hadoop并且官网看不懂,那么请务必先看看这份资料:h...

2018-12-06 09:21:27 2680

原创 Hue权限管理

Hue权限管理Hue的用户权限体系是: 每个用户属于一个或多个组, 每个组可以配置其Hue页面访问权限及Hive/Solr/HDFS数据访问权限, 数据的访问权限由角色定义, 而用户组和角色之间是多对多关系Hue使用Sentry进行权限管理之后, 要求登录Hue的用户及其组需要在Sentry Server节点(以正式环境为例, 即gs01节点)Linux系统中存在对应的用户和组, 否则无法进行权限控制.目前已经在Hue创建了一个hdfs用户组(拥有最高权限), 包含用户admin及hdfs, 两者在g

2020-10-09 11:16:52 179

原创 Hive表权限

Hive表权限hive一、赋角色权限–创建和删除角色create role role_name;drop role role_name;–展示所有rolesshow roles–赋予角色权限grant select on database db_name to role role_name;grant select on [table] t_name to role role_name;–查看角色权限show grant role role_name on database db_n

2020-10-09 11:13:27 358

原创 Yarn权限

一、yarn漏洞1、黑客注入脚本,以hadoop-yarn用户疯狂提交2、署名用户为yarn的进程疯狂占用CPU,整个集群CPU跑慢处理:1、先收回\tmp目录的执行权限(为解燃眉之急,这一步是最快的,可以快速让环境恢复正常的)2、对yarn提交任务进行最小权限控制,用户权限控制3、运维安全管理,端口号管理(8088这个端口特别关照)4、查看yarn用户的crontab,如下:清理掉它5、清理ssh里的可疑文件,和known hosts二、yarn权限管理yarn的权限管理分为三个

2020-09-08 16:05:09 350

原创 HDFS权限

HDFS权限一、HDFS权限简介Hdfs的权限管理分为2大部分:第一部分类似于Linux的基本权限管理,也就是粗粒度将管理对象分为user、group和other三类去进行权限的管理。第二部分是ACL方式的权限管理,也是更加细粒度的权限管理,可以精确控制到某个user与某个group具有的对应权限上。注:hadoop2.4.0版本开始支持hdfs的ACL二、HDFS 基本权限管理2.1 初始目录权限当我们创建文件或者目录的时候可以指定权限,没有指定的话就会使用默认的权限。文件默认权限:

2020-09-08 16:04:50 176

原创 Liunx权限(Centos7)

Liunx权限(Centos7)一、概述liunx是一个多用户、多任务的服务器操作系统,所以其提供了严格的权限管理机制,主要是从用户身份和文件权限两个方面对资源进行了限制。Linux基于用户身份对资源访问进行控制。1.1 用户身份1)用户账号的类别划分:超级用户:root,最高的权限用户普通用户:自定义用户、匿名用户类程序用户:控制程序和服务的,无法登陆2)组账号的类别划分:基本组(私有组):伴随着用户创建而创建与用户同名,但创建一个用户的时候必有其组附加组(公有组):直接创建空组

2020-09-08 16:04:34 77

原创 Streamsets性能优化

一、Streamsets性能1.1 查看Streamsets 性能点击菜单栏Administrator—SDC Metrics图片:主要是CPU和堆内存的占用情况,当占用很高打开的时候会出现显示延迟的现象。二、相关优化2.1 优化堆内存因为StreamSets使用的配置为java虚拟机分配的1G堆内存,上线时建议根据自己的需求去更改对应的内存大小,修改{$STREAMSETS_HOME}/libexec/sdc-env.sh文件,对应修改内容:export SDC_JAVA_OPTS="-

2020-08-04 10:24:32 701 1

原创 Streamsets组件详解

Streamsets优化详解一、Origin类组件详解二、Processor类组件详解三、Destination类组件详解四、Executor类组件使用详解一、Origin类组件详解Amazon S3Amazon SQS ConsumerAzure Data Lake Storage Gen1Azure Data Lake Storage Gen2Azure IoT/Event Hub ConsumerCoAP ServerCron Scheduler // 任务调度组件,用于调度数据流D

2020-08-04 10:24:15 761

原创 Streamsets之CDH安装

Streamsets之CDH安装一、环境介绍二、下载StreamSets安装包2.1 下载地址2.2 下载内容一、环境介绍组件CDHStreamsets版本5.14.43.12.0所以之后的教程都会以这两个版本去介绍,使用CDH去管理Streamsets二、下载StreamSets安装包2.1 下载地址https://archives.streamsets.com/index.html2.2 下载内容下载如图所框的四个内容!1)上传下载内容manifest.

2020-08-04 10:23:57 110

原创 Streamsets简介

一、是什么?由Informatica前首席产品官Girish Pancha和Cloudera前开发团队负责人Arvind Prabhakar于2014年创立的公司,总部设在旧金山。streamsets产品做大数据ETL工具,支持包括结构化和半/非结构化数据源,拖拽式的可视化数据流程设计界面...

2020-08-04 10:23:35 396

原创 idea常用插件及代码注释

插件名称 插件介绍 官网地址 Alibaba Java Coding Guidelines 阿里巴巴代码规范检查插件 https://plugins.jetbrains.com/plugin/10046-alibaba-java-coding-guidelines Key promoter 快捷键提示插件 https://p...

2020-07-06 22:31:33 644

原创 hue上workflow之shell-sqoop脚本配置实录
原力计划

workflow之shell-sqoop脚本实录前面讲解了sqoop的密码明文问题解决与sqoop导入分库分表mysql数据问题解决,那么这里就详细介绍下在hue上配置shell-sqoop脚本时所遇到的问题!这里的shell脚本会以上篇的脚本为例!一、配置hue的workflow二、所遇问题2.1 不能加载mysql驱动报错如下:ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could

2020-05-31 14:42:21 291

原创 mysql分库分表数据导入hive之sqoop-shell脚本
原力计划

sqoop分库分表shell导入脚本之前的生产集群使用到了mysql的分库分表,所以抽取同一张表的数据就需要从不同的库与表中进行抽取了!话不多说线上图分库:分表:一、sqoop导入脚本#!/bin/bash#coding=UTF-8sqoop=/data/cloudera/parcels/CDH-5.14.4-1.cdh5.14.4.p0.3/bin/sqoop$sqoop import \-Dhadoop.security.credential.provider.path=jce

2020-05-31 14:37:32 609 4

原创 sqoop密码明文问题解决

sqoop密码明文问题解决今天优化数仓sqoop导入导出时的密码明文问题!参考博客:https://blog.csdn.net/u011489205/article/details/78966716这里会详细跟大家图文介绍第四种 --password-alias的方式,话不多说开gao!!!一、简介Hadoop2.6.0 之后的版本提供了一个API用于将密码存储和应用程序分离。这个API被称为凭证提供的API,并提供了一个新的命令行工具来管理密码及其别名。密码及其别名一起被存储在密码保护的密钥库中。

2020-05-26 21:39:08 234

原创 什么你还不会Flink的CEP,那你需要好好看看这篇文章
原力计划

Flink之CEP详解一、是什么维基百科对CEP的定义为:“CEP是一种事件处理模式,它从若干源中获取事件,并侦测复杂环境的事件或模式,CEP的目的是确认一些有意义的事件(比如某种威胁或某种机会),并尽快对其作出响应”。总结一下也就是CEP是一个事件处理模式,当某项检测需要在多源且复杂的事件流中进行处理,并需要低延迟、秒级或毫秒级的响应时,我们就可以考虑用到它。市场上有多种CEP的解决方案,例如Spark、Samza、Beam等,但他们都没有提供专门的library支持。但是Flink提供了专门的CEP

2020-05-18 18:49:34 309 1

原创 Flink之末自定义udf与Sink定义

一、实现UDF函数——更细粒度的控制流1.1 函数类(Function Classes)Flink暴露了所有udf函数的接口(实现方式为接口或者抽象类)。例如MapFunction, FilterFunction, ProcessFunction等等。下面例子实现了FilterFunction接口:class FilterFilter extends FilterFunction[String] { override def filter(value: String): Boolean

2020-05-14 18:39:59 221

原创 再忙也需要看的Flink状态管理
原力计划

Flink状态管理上几篇我们讲完了Flink窗口的相关内容,那么问题来了,我们如果在一个开窗的流处理上做求和操作,突然处理凉了,怎么办呢?那我们需要去重新计算吗?所以接下来也就需要去介绍我们的Flink状态管理了。一、 简介流式计算其实分为无状态和有状态两种情况。无状态的计算观察每个独立事件,并根据最后一个事件输出结果。例如,流处理应用程序从传感器接收温度读数,并在温度超过90度时发出警告。有状态的计算则会基于多个事件输出结果。那么究竟哪些是有状态的呢?如下:所有类型的窗口。例如,计算过去一小时的

2020-05-13 22:11:22 203

原创 全网最详细Flink之Watermark机制
原力计划

一、Flink之Watermark在上一篇文章中我们介绍了窗口相关的内容,那么问题来了,假如我们实时处理蒸漂亮同学的行为,结果蒸漂亮恰好网络异常,本来我们窗口设置的5秒一算,而她刚才的行为恰巧属于上一个5秒窗口A计算的,但是网络异常后使得她的这次行为数据进入了到了下一个5秒B中计算。那么我们的计算是不是就存在了问题!!所以这时我们就需要去了解下咱们的Watermark了,当然为了理解的更清晰会再举例介绍!1.1 基本概念之是什么推迟窗口触发的时间,实现方式:通过当前窗口中最大的eventTime-延迟

2020-05-13 21:59:26 574

原创 你不得不知的Flink窗口
原力计划

一、Windows详解如果你真的头铁看了上一篇的算子二,那么没有问题,看完这篇你应该会更加清晰的理解窗口,如果没看也没问题,我会适当的引入部分内容,但看完这篇后还是请打开算子二的窗口章节再去细品下相关算子!1.1 图解关系1.2 窗口操作类型分类对于窗口的操作分为两种,一种是keyedstrem,另一种是DataStream;他们的主要区别也仅仅在于建立窗口的时候一个为.window(…),一个为.windowAll(…)。经过keyBy的数据流将形成多组数据,下游算子的多个实例可以并行计算。而对

2020-05-13 21:59:06 223

原创 Flink万物之中Transform算子二
原力计划

Flink万物之中Transform算子二2.1 图解关系2.2 开启窗口window与windowAllWindow()经过keyBy的数据流将形成多组数据,下游算子的多个实例可以并行计算。windowAll()不对数据流进行分组,所有数据将发送到下游算子单个实例上。// Keyed Windowstream.keyBy() <- 按照一个Key进行分组.window() <- 将数据流中的元素分配到相应的窗口中// N

2020-05-12 19:06:52 135 1

原创 Flink万物之中Transform算子一
原力计划

Flink 的Transform算子在上一篇中我们讲完了获取Flink执行环境与定义某些Source的方法,那么接下来也就是重要的Flink Transform算子的讲解环节了!!!老规矩先上图:图中有很多算子,我们会讲解一部分,其他用到后会在教程中讲解一、基础算子1.1 map1.1.1 作用map可以理解为映射,对每个元素进行一定的变换后,映射为另一个元素,也就是一对一的转化1.1.2 图解1.1.3 代码演示val streamMap = stream.map { x =>

2020-05-12 19:06:27 201

原创 Flink万物之始API流环境获取与Source定义
原力计划

经过上几篇的教程我相信你对Flink的认识已经很不错了,我们是时候去开始我们最喜欢的编程环节了!!那么我们在写一个Flink程序的第一步是干什么呢?什么?定义source。很正确,但是少了一点,在定义source前我们需要先获取Flink的执行环境,究竟是本地执行还是集群执行,然后再去定义source再去Transform与sink!!所以我们先开始我们的第一步。一、流处理环境获取1.1 getExecutionEnvironment首先肯定要先给大家讲讲常用的创建一个执行环境的方法,getExecu

2020-05-11 19:17:37 107

原创 Flink任务调度原理之并行度与任务链

一、并行度上一篇已经讲到了DataFlow与执行图,细心的小伙伴应该会发现为什么有些算子生成执行图时是两个,有些是一个呢?如果你注意到了这些证明你是真的很闲!!!好了为了看得更加明显先上图:上面所描述的的也就是并行度!!!1.1 什么是并行度一个特定算子的 子任务(subtask)的个数被称之为其并行度(parallelism)。一般情况下,一个 stream 的并行度,可以认为就是其所有算子中最大的并行度。1.2 详解并行度JobGraph中展示了A算子并行度为4,C为2等等。而他在Task

2020-05-08 20:30:30 361

原创 Flink任务调度原理之逻辑数据流与执行图

Flink任务调度原理之逻辑数据流与执行图一、逻辑数据流(DataFlow)1.1 Flink程序由什么组成?前几篇文章讲解了Flink的运行流程,与TaskManager与Slots,那么一个Flink程序究竟如何去写,它又是由什么所组成的呢?老规矩先上图:看了这个图相信大家对Flink Streaming Dataflow的了解又多了一点 。没错所有的Flink程序都是由三部分组成...

2020-05-08 19:57:19 179

原创 Flink任务调度原理之TaskManager 与Slots

TaskManager 与Slots一、作用与关系上文讲到了每一个worker(TaskManager)为了控制能接收多少个task,worker通过task slot来进行控制(一个worker至少有一个task slot),那么是怎么处理的呢?话不多说先上图总:Flink 中每一个 TaskManager 都是一个JVM进程,它可能会在独立的线程上执行一个或多个 subtask为...

2020-04-28 21:04:45 1493 4

原创 写给忙人看的Flink任务提交流程

Flink任务提交流程一、任务提交流程上篇有简单提到Flink的运行方式有YARN、Mesos、K8s,以及standalone,所以老规矩先根据上篇的内容,先上一个运行图揭示一下当一个应用提交执行时,Flink的各个组件是如何交互协作的组件交互流程如上,那么接下来会详细的跟大家聊聊Yarn上运行细节二、任务提交流程(YARN)先上图:在Flink任务提交后:Client向HD...

2020-04-28 20:26:36 244

原创 CDH动态资源池配置

动态资源池配置Yarn默认有三种调度器——FIFO、Capacity以及Fair Scheduler,CDH推荐使用Fair Scheduler。通过动态资源池的Web UI,我们可以十分方便的配置Fair Scheduler。1)点击群集→动态资源池配置进入动态资源池的配置界面2)动态资源池配置——资源池动态资源池采用树形结构,与Fair Scheduler的队列保持一致,任务只能提交...

2020-04-26 20:18:27 554

原创 CDH entropy available 问题解决

CDH entropy was available 问题解决问题描述:CDH 集群启动一段时间后总是会出现 Entropy 不良问题,问题截图如下:解决:查询系统熵值大小cat /proc/sys/kernel/random/entropy_avail安装 rng-tools 工具yum install rng-tools修改 /etc/sysconfig/rngd...

2020-04-26 20:12:25 219

原创 CDH 启用hdfs高可用后hue无法访问hdfs

CDH 启用hdfs高可用后hue无法访问hdfs问题描述:再启用hdfs的namenode高可用时再点击hue上的filebrowser时,无法访问hdfs目录,报错问题如下:解决:

2020-04-26 20:07:55 258

原创 Flink流处理,你不得不知的运行组件

Flink运行时组件看到下面这张图了吗?什么看到了,那这篇博客你已经读完了!什么不够详细?那就在详细的跟你掰扯掰扯!一、作业管理器(JobManager)控制一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的JobManager 所控制执行。JobManager 会先接收到要执行的应用程序,这个应用程序会包括:作业图(JobGraph)、逻辑数据流图(logical d...

2020-04-22 20:08:41 126

原创 在忙也需要看的大数据处理发展史

流处理发展俗话说的好,“发展史都不知道,就跟他人讨论,犹如当众耍流氓”,什么?没听过,那现在可要谨记了!!一、数据处理架构简析1.1 事务型处理代表数据库mysql1.2 分析处理将数据从业务数据库复制到数仓,然后进行分析和查询1.3 有状态的流处理什么?不熟悉?不知道?那你可能需要去看看我的Flink专栏了。二、流处理的演变传统的数据处理方式介绍完了当然要需要紧扣主题的...

2020-04-20 20:47:25 98

原创 一文告诉你大数据Flink是什么
原力计划

Flink简介一、是什么?1.1 起源Flink的前身是Stratosphere项目,Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会,参加这个孵化项目的初始成员是Stratosphere系统的核心开发人员,2014年12月,Flink一跃成为Apa...

2020-04-20 20:29:45 301

原创 windows分卷压缩linux解压方法

windows分卷压缩linux解压方法一、问题描述由于某文件超过4G,通过rz上传至集群时有上传大小限制,于是对文件进行了分卷压缩,并上传。上传后进行如下操作cat xx.z01 xx.z02 xx.zip > full.zipunzip full.zip报错:二、解决由于分卷特别多,合并后压缩包特别大,超过2G,UNZIP可能无来法解压另外,磁盘可能无法存储合并的大...

2020-04-09 14:37:53 776

原创 Kudu教程

一、Kudu概述1.1 定义Kudu 是一个针对 Apache Hadoop 平台而开发的列式存储管理器。1.2 基础架构Kudu也采用了Master-Slave形式的中心节点架构,管理节点被称作Kudu Master,数据节点被称作Tablet Server(可对比理解HBase中的RegionServer角色)。一个表的数据,被分割成1个或多个Tablet,Tablet被部署在Tabl...

2019-12-31 16:50:04 462 1

原创 cdh5.8.0 flume+kafka用户行为日志数据采集方案详解

一、日志模拟1.1 模拟日志生成java -classpath /data/opt/module/log-produce.jar com.lsl.appclient.AppMain >/data/opt/module/test.log二、flume数据采集2.1 Flume安装2.1.1 日志采集Flume安装1)添加服务2)选择Flume,点击继续3)选择节点4)完成...

2019-12-17 10:24:31 371

原创 idea无法下载cdh依赖jar包

一、起因需要用到cdh相关jar包但是怎么都引入不进去,查阅资料后发现maven仓库中没有支持cdh的相关依赖。cloudera自己建立了一个相关的仓库。要想利用maven添加相关依赖,则必须单独添加cloudera仓库。二、问题解决1、项目中的pom.xml文件中添加依赖 <repositories> <repository> ...

2019-12-10 12:18:32 459

原创 maven仓库清除脚本

set REPOSITORY_PATH=C:\Users\EDZ\.m2\repository[这里写自己maven仓库地址]rem 正在搜索...for /f "delims=" %%i in ('dir /b /s "%REPOSITORY_PATH%\*lastUpdated*"') do ( del /s /q %%i)rem 搜索完毕pause...

2019-12-06 11:33:13 188

原创 sqoop导入postgresql中的数据到hdfs上

一、 踩坑1.1 shell执行采坑一:报错缺少驱动包解决:把这个配置到环境变量中,并分发配置至集群中的每台机器1.2 workflow问题:缺少包解决:上传对应包到hdfs的oozie目录中二、导入语句与导入mysql基本类似举例:sqoop import --connect jdbc:postgresql://pgm-bp189osqbs69n2c1602...

2019-11-06 17:50:49 364

大数据阿里云开放端口.json|大数据阿里云开放端口.json

阿里云大数据开放端口

2020-11-23

DolphinScheduler.docx

大数据调度框架ds,定时任务调度,详解安装与基础配置。大数据调度框架ds,定时任务调度,详解安装与基础配置。大数据调度框架ds,定时任务调度,详解安装与基础配置。大数据调度框架ds,定时任务调度,详解安装与基础配置

2020-05-15

scala脑图.xmind

scala个人学习时总结的脑图

2020-03-09

实时ETL工具-StreamSets操作手册.docx

StreamSets操作手册

2020-02-18

HBase学习脑图

HBase简介、部署、优化、预分区等等知识点、最后进行总结

2019-04-10

个人总结JVM脑图

详解JVM组成,GC,内存区域,以及一些GC机制和算法,一些简单的调优

2019-04-10

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除