自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 SpringBoot集成Flume

#### SpringBoot 集成 Flume引入依赖 <!--Flume相关依赖--><dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-sdk</artifactId> <version>...

2020-03-29 12:09:33 3824 1

原创 Apache Flink之入门篇【章节一】

概述????Flink是构建在数据流之上的有状态计算的流计算框架,通常被⼈们理解为是 第三代 ⼤数据分析⽅案。第⼀代:Hadoop的MapReduce计算(静态)、Storm流计算(2014.9) ;两套独⽴计算引擎,使⽤难度⼤第⼆代:Spark RDD 静态批处理(2014.2)、DStream|Structured Streaming 流计算;统⼀计算引擎,难度系数⼩第三代 : Flink...

2020-03-11 20:11:23 399

原创 hdfs设置默认日志级别l;设置hdfs-audit审计日志级别

Hadoop的默认日志级别为INFO,Hadoop使用的是log4j记录日志,如果去修改。,会被系统环境变量所覆盖,所以即使修改了这里的配置,重启也会无法生效。,添加修改如下变量,如果没有此变量就添加即可,有的话就将。所以就重HDFS的环境变量配置文件中下手,修改。如果为Apache单服务集群还需要修改。重启服务即可,观察日志情况。修改为需设定的日志级别。

2023-05-25 10:33:26 709

原创 HBase核心优化配置参数

Regionhbase.hregion.max.filesize默认10G,简单理解为Region中任意HStore所有文件大小总和大于该值就会进行分裂。解读:实际生产环境中该值不建议太大,也不能太小。太大会导致系统后台执行compaction消耗大量系统资源,一定程度上影响业务响应;太小会导致Region分裂比较频繁(分裂本身其实对业务读写会有一定影响),另外单个RegionServer中必然存在大量Region,太多Region会消耗大量维护资源,并且在rs下线迁移时比较费劲。综合考虑,建议线上

2021-06-15 09:42:18 730

原创 HiveSQL经典题目,你真的会吗?

HiveSQL经典题目文章目录HiveSQL经典题目1、查询连续登陆3天以上的用户2、统计每个用户的累计访问次数3、分组求TopN1、查询连续登陆3天以上的用户准备数据t_demo1.csv1,2019-01-01 00:00:001,2019-01-02 00:00:001,2019-01-03 00:00:002,2019-02-01 00:00:002,2019-02-02 00:00:002,2019-02-02 00:00:002,2019-02-04 00:00:003,

2021-05-05 17:45:34 266

原创 CentOS7Azkaban3.x的下载和安装

Azkaban3.x的下载GitHub下载:https://github.com/azkaban/azkaban/archive/3.72.1.tar.gz百度网盘下载:https://pan.baidu.com/s/15QpQedlKTNRwMPf5RE_gMg 密码:2e3cAzkaban3.x的安装1、将下载好的安装包上传到Centos上,并进行解压。[root@localhost share]# ll-rw-r--r-- 1 root root 19197611 7月 9

2020-07-09 19:59:57 1694

原创 idear配置工具上传Jar包到服务器并运行

idear配置工具上传Jar包到服务器当我们每次调试代码在服务器上运行,每次打包在利用ssh终端工具上传是很繁琐的,且又影响效率。本文给大家安利一下,直接用大家常用的idea工具简单配置一下就可以轻松上包。1、打开idea,在顶部菜单栏找到 Tools>deployment>configuration2、打开字后点击+号,选择 SFTP3、点击之后会出现让你创建名称,然后点击OK 出现这个后置图,点击SSH cofiguration 后面的省略号则弹出前置图。这里需要配置你要上传服务

2020-07-08 20:44:28 1012

原创 利用反射JavaBean和Document相互转换,Java方便操作插入MongoDB数据库

JavaBean和Document相互转换引入依赖 <dependency> <groupId>org.mongodb</groupId> <artifactId>mongodb-driver</artifactId> <version>3.4.1</version> </dependency> &l

2020-07-04 16:34:19 1385 2

原创 SparkSql读取HDFS文件写出到MySQL的问题

SparkSql读取HDFS文件写出到MySQL用SparkSQL来处理存放在HDFS文件,操作起来优雅简洁,同时写出到数据库中,比SparkRDD操作跟简单,在此之前确保HDFS所在服务器的访问端口是否开通一般为9000端口,文章里是8020端口。文章中使用的数据为MongoDB的数据到HDFS上的,数据格式(BSON)和JSON是大同小异的。数据格式{"oil":0,"simNo":"010000000002","carId":304648943587868672,"address":null,"

2020-07-01 15:41:18 780

原创 Apache Flum【入门篇】

⚠Flume是什么?Flume 是一种分布式,可靠且可用的服务,用于有效地收集,聚合 和移动大量数据。Flume 构建在日志流之上一个简单灵活的架构。它具有可靠性 机制和许多故障转移和恢复机制,具有强大的容错性。使用Flume这套架构实现在线分析。Flume支持在日志系统中定制各类`数据发送方`,用于收集数据;同时,Flume 提供对数据进行简单的处理,并且写到各种`数据接收方` (可定制)的...

2020-03-29 12:23:41 430

原创 Apache Flin之Streaming DataStream API【章节三】

Streaming (DataStream API)DataSource 数据源数据源是程序读取数据的来源,⽤户可以通过 env.addSource(SourceFunction) ,将SourceFunction添加到程序中。Flink内置许多已知实现的SourceFunction,但是⽤户可以⾃定义实现SourceFunction(⾮并⾏化的接⼝)接⼝或者实现ParallelSourceF...

2020-03-11 22:17:07 269

原创 Apache Flink之程序的部署【章节二】

程序部署在Flink中多中操作方式对编写好的程序进行部署,下面对各种部署方式的介绍本地执⾏//1.创建流计算执⾏环境val env = StreamExecutionEnvironment.createLocalEnvironment(3) //2.创建DataStream val text = env.socketTextStream("CentOS", 9999)//3.执⾏D...

2020-03-11 21:33:56 416

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除