自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 资源 (1)
  • 收藏
  • 关注

原创 grafana、prometheus监控linux、mysql等

prometheus、grafana监控安装部署

2022-08-29 17:34:42 4074 1

原创 minio 分布式存储文件系统

minio容器化的基本安装

2022-08-19 13:33:14 433

原创 CDH-6.3.2部署手册 已验证

CDH-6.3.2 环境搭建

2022-08-19 13:28:53 494

原创 Hive分区表动态添加字段

场景描述:  公司埋点项目,数据从接口服务写入kafka集群,再从kafka集群消费写入HDFS文件系统,最后通过Hive进行查询输出。这其中存在一个问题就是:埋点接口中的数据字段是变化,后续会有少量字段添加进来。这导致Hive表结构也需要跟着变化,否则无法通过Hive查询到最新添加字段的数据。解决办法:  为数据表添加字段,字段必须添加到已有字段的最后面。因为已经存在的数据是按照之前的表结构写入到HDFS文件中的,当添加新字段时为了能兼容前面已经存在的数据。在新增的字段加到分区表后,之前.

2021-06-16 15:13:52 1788

原创 window 10禁止更新

禁用“Windows Update”更新服务首先我们鼠标右键点击“开始”菜单,找到并点击“运行”或者键盘上使用快捷键“WIN+R”打开运行,如下图所示。在运行输入框中输入“services.msc”打开服务,并回车键确定,如下图所示。我们在服务中找到[Windows Update]一项,我们双击打开[Windows Update],如下图所示。我们将启动类型修改至“禁用”,再将该服务“停止”,点击“应用”按钮,不过系统自动启用失败依然会打开的,不用急,往下看。我们再去“恢

2021-05-20 16:39:32 218

原创 简洁版logback.xml

nohup java -jar -Dserver.port=9090-Dcatalina.home=/data/softwares/app/tomcat-test-xxl-job-9090/logback-logs/ #打印logback日志 info error warn debug 产生不同文件 catalina.home为logback.xml中的变量xxl-job-admin-2.0.2.jar >/data/softwares/app/tomcat-test-xx...

2021-05-20 16:13:33 268

原创 logback.xml

<?xml version="1.0" encoding="UTF-8"?><!-- Logback Configuration. --><configuration scan="true"> <property name="BODYGUARD_LOG_LEVEL" value="INFO"/> <include resource="logging/logback-bodyguard.xml"/> <spring.

2021-05-20 16:04:04 103

转载 Git(Gitee)之 SSH环境部署,并使用 SSH 地址下载代码

一、GItGit(读音为/gɪt/。)是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。 [1]Git 是Linus Torvalds为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件二、下载安装Git 1、官方地址为:https://git-scm.com/download/win2、下载完之后,双击安装3、选择安装目录4、选择组件5、开始菜单目录名设置6、选择使用命令行环境7、...

2021-04-03 15:40:57 1388

转载 Java基于LoadingCache实现本地缓存

Java基于LoadingCache实现本地缓存一、 添加maven依赖<dependency> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> <version>27.1-jre</version></dependency>二、CacheBuilder方法说明1️⃣LoadingCa.

2021-02-08 09:35:33 735 2

原创 docker 中安装mysql 5.7

一、首先安装docker很简单:1、安装环境查看此处在Centos7进行安装,可以使用以下命令查看CentOS版本lsb_release -a在CentOS 7安装docker要求系统为64位、系统内核版本为 3.10 以上,可以使用以下命令查看uname -r2、用yum源安装2.1 查看是否已安装docker列表yum list installed | grep docker2.2 安装dockeryum -y install docker-y表示不询问安装,.

2020-11-10 16:37:25 203

转载 Docker在Linux下载安装及部署

一、安装docker的基本命令1. 首先需要查看Linux内核版本uname -r2. 安装dockeryum install docker或者sudo wget -qO- https://get.docker.com | sh3. 安装完成后,查看docker版本docker version或者docker -v二、使用docker的基本操作命令docker 安装完成后,就需要记一下docker启动关闭等基本的命令1.启..

2020-11-03 18:29:07 580

原创 Docker在Linux上下载与安装配置

1、删除旧版本的docker,防止有残留sudo yum remove docker \ docker-client \ docker-client-latest \ docker-common \ docker-latest \ docker-latest-logrotate \ doc

2020-11-03 18:15:47 311

原创 将tomcat 打成docker 镜像

1,安装docker环境2,先创建一个我们自己玩的目录3、自己项目是war、jar 包打好;4、把打包好的Tomcat和jdk上传jdk-8u11-linux-x64.tar.gz5、编写Dockerfile 注意名字必须为Dockerfile 且没有后缀vim Dockerfile输入以下内容: #基本镜像 FROM centos #把你上传的jdk放到docker容器里面的root目录下 ADD jdk-8u11-linux-x64.ta

2020-10-30 15:10:56 1159

转载 百度开源 Apache Doris (Incubating) 原理与实践

Apache Doris简介Doris(原百度 Palo)是一款基于大规模并行处理技术的分布式 SQL 数据库,由百度在2017年开源,2018年8月进入 Apache 孵化器。本次将主要从以下三部分介绍Apache Doris. Doris定位:即 Doris所要面临的业务场景及解决的问题 Doris关键技术 Doris案例介绍 01Doris定位实时数据仓库Doris产品定位我们首先看一下Doris整个的定位。 MPP 架构...

2020-10-30 14:22:32 2932

转载 使用jar命令替换jar包中指定文件

一、jar命令用法 -c 创建新的归档文件 -t 列出归档目录和文件 -x 解压缩已归档的指定(或所有)文件 -u 更新现有的归档文件 -v 在标准输出中生成详细输出 / 提供更详细输出信息 -f 指定归档文件名 / 为压缩包指定名字 -m 包含指定清单文件中的清单信息 -e 为捆绑到可执行 jar 文件的独立应用程序指定应用程序入口点 -0 仅存储,不压缩,只是打包;不使用任何 ZIP 压缩 -M 不创建条目的清单文件 META-INF/MANIFEST.MF -i ...

2020-10-23 17:29:25 1628

转载 hbase的查询scan功能注意点(setStartRow, setStopRow)

Scan scan = new Scan();scan.setStartRow(“5193:”);scan.setStopRow(“5194:”);ResultScanner result = table.getScanner(scan);for (Result r : result) { get it......}查找原本期望:从下列中5193:15193:25194:151939:151942:1取出5193:---5194...

2020-09-29 18:38:20 923

原创 kafka处理消息写入和备份的全流程

Base Offset:是起始位移,该副本中第一条消息的offset,如下图,这里的起始位移是0,如果一个日志文件写满1G后(默认1G后会log rolling),这个起始位移就不是0开始了。 HW(high watermark):副本的高水印值; LEO(log end offset):日志末端位移,代表日志文件中下一条待写入消息的offset;LEO包括leader副本和follower副本。leader LEO:leader的LEO就保存在其所在的broker的缓存里,当lea.

2020-09-23 18:20:53 1156

原创 MVC思想

MVC流程图如下图所示:MVC是一种架构模式 ---程序分层,分工合作,既相互独立,又协同工作MVC是一种思考方式 --- 需要将什么信息展示给用户? 如何布局? 调用哪些业务逻辑?MVC核心思想:业务数据抽取同业务数据实现相分离总结: 模型层(M) 业务数据的信息表示,关注支撑业务的信息构成,通常是多个业务实体的组合 视图层(V) 为用户提供UI,重点关注数据的呈现 控制器(C) 接受用户请求,并...

2020-09-11 18:53:24 258

原创 k8s相关操作命令

查看全局某个类型的服务kubectl get ${type}[s] --all-namespaces [-o wide]常用的查看命令1、查看所有命令空间下的pod 以及服务状态kubectl get pod[s] --all-namespaces2、查看所有服务的部署节点,以及对应内部IP 服务状态,所属命令空间kubectl get ${type}[s] --all-namespaces -o wide3、服务属于哪个命名空间下,应用部署的个数sudo kubectl get d...

2020-09-07 11:23:04 339

原创 AWK 相关命令使用

1、输出所有awk '{print}' a_formula_params_d_20200520.txtawk -F "^A" '{print}' a_formula_params_d_20200520.txt2、查询文件中 A类客群额度计算awk '{print "A类客群额度计算"}' a_formula_params_d_20200520.txt3、

2020-09-07 11:17:20 1717

原创 hive中UDF,UDAF,UDTF

UDF,UDAF,UDTF三个函数是Hive中常用的自定义函数,这些函数可以实现复杂的功能,且可以重复使用。UDF(User-Defined Functions)功能特点:输入一条数据,输出一条数据;是一个一对一的关系,属于单纯处理操作。用途说明:UDF函数可以直接应用于hive中的select语句,对查询结果做格式化或者各种处理后,再输出内容。开发相关:1.自定义UDF需要继承 org.apache.hadoop.hive.ql.exec.UDF;2.一个UDF必须实.

2020-08-12 19:19:32 218

原创 kafka的consumer接收消息消费

默认情况下,consumer是自动提交位移的,可以修改consumer端参数enable.auto.commit=false来设置提交方式为手动提交。默认情况下,自动提交间隔为5秒,可以通过修改 auto.commit.interval.ms=1000来配置自动提交的时间间隔。自动提交降低了开发成本,但是不能细粒度处理位移提交。例如一个典型的consumer应用场景:用户需要对poll方法返回的消息集合中的消息执行业务级处理,只有消息真正被处理完之后再提交位移,使用自动提交位移显然...

2020-08-12 18:10:27 1028

原创 kafka中的coordinator

1、Transaction CoordinatorKafka事务Transaction Coordinator 事务的交易协调员PID ---通过---> Transaction Coordinator---获得--->Transaction ID为了实现跨分区跨会话的事务,需要引入一个全局唯一的Transaction ID,并将Producer获得的PID和Transaction ID绑定。这样当Producer重启后就可以通过正在进行的Transaction ID获得原来..

2020-08-12 16:59:48 2816 3

原创 Kafka消息数据积压,消费能力不足如何处理?

可以从两方面考虑:1、如果是Kafka消费能力不足,则可以考虑增加Topic的分区数(一般一个Topic分区数为3-10个),并且同时提升消费组的消费者数量,消费者数==分区数。两者缺一不可2、如果是下游的数据处理不及时:则提高每批次拉取的数量。批次拉取数据过少(拉取数据/处理时间<生产速度),使处理的数据小于生产的数据,也会造成数据积压。...

2020-08-11 19:18:26 4051

原创 kafka分区与topic 理解;

kafka:topic为什么要进行分区?副本机制是如何做的?https://blog.csdn.net/weixin_38750084/article/details/82942564如何根据数据量确定Kafka分区个数、Kafka的分区是不是越多越好、Kafak生产者分发策略,消费者负载均衡 09https://blog.csdn.net/weixin_42641909/article/details/89294698...

2020-08-05 18:01:12 870

转载 Shell使用grep和sed命令提取json数据中指定字段的值

示例:1.有一个example.txt文件,文件内容如下:{“err_code”:200,"err_msg":"this is no error", “status”: 1, “dev_name”: “mylinux”, “dev_id”: 123}2.如果我们想要获取dev_id字段的值,可以在命令行下使用如下一行命令:cat example.txt | sed 's/,/\n/g' | grep "dev_id" | sed 's/:/\n/g' | sed '1d' | s..

2020-08-04 18:18:39 2152

原创 map-combine过程解

●read阶段:通过RecordReader从InputSplit分片中将数据解析成一个个key/value。●map阶段:将由RecordReader解析出的key/value交给map()方法处理,并生成一个个新的key/value。●collect阶段:将map()中新生成key/value由OutpCollector.collect()写入内存中的环形数据缓冲区。●spill阶段:当环形缓冲区达到一定阀值后,会将数据写到本地磁盘上,生成一个spill文件。在写文件之前,会先将数据进行一次...

2020-08-03 18:15:51 641

原创 Hadoop的三种调度器

Yarn的默认调度器、调度器分类、以及他们之间的区别1)Hadoop调度器重要分为三类:FIFO、Capacity Scheduler(容量调度器)和Fair Sceduler(公平调度器)。Hadoop2.7.2默认的资源调度器是容量调度器2)区别:FIFO调度器:先进先出,同一时间队列中只有一个任务在执行。 容量调度器:多队列;每个队列内部先进先出,同一时间队列中只有一个任务在执行。队列的并行度为队列的个数。 公平调度器:多队列;每个队列内部按照..

2020-08-03 16:09:26 2176

原创 hive排序

全排序:order by部分排序:sort by二次排序:cluster by 在排序是有多个条件排序;如 XXXX startTime desc , id desc;分区排序:如果使用select * from table 则就是默认了随机排序,则;可以指定分区排序,关键字:可以设置reduces的个数:set mapreduce.job.reduces=5可以看到reduce tasks 数量为:5...

2020-07-28 19:44:43 97

原创 Map Task数目的确定 和 Reduce Task数目的指定

Map Task数目的确定和Reduce Task数目的指定————自然得到结论,前者是后者决定的,后者是人为指定的。查看源码可以很容易看懂1、MapReduce作业中Map Task数目的确定:1)MapReduce从HDFS中分割读取Split文件,通过Inputformat交给Mapper来处理。Split是MapReduce中最小的计算单元,一个Split文件对应一个Map Task2)默认情况下HDFS种的一个block,对应一个Split。3)当执行Wordcount时: ...

2020-07-24 15:06:23 1290

原创 shell 脚本同步es数据,以及jq工具使用

业务场景:1、同步数据:同步生产es数据到离线es;2、比对条数:同样条件查询生产数据条数与离线es同步的数据条数是否一致,不一致说明有丢失数据,或者更新了数据;jq:非常强大的json 解析工具;与shell完美搭配(只用过到shell中),有搜索、指定输出key等功能。...

2020-07-22 14:30:59 419

原创 docker 外网拉镜像打包,到内网安装镜像

由于内网环境无法拉取dockhub镜像,在可以联网的机子上拉镜像,用下面的命令把镜像打包为tar文件。1、save命令将镜像保存为tar文件docker save -o mysql.tar mysql:5.7或者docker save mysql:5.7 > mysql.tar2、load命令将tar文件加载到本地镜像中(将外网的tar镜像包 load到内网的机器上)docker load -i mysql.tar或者docker load < mysql.tar

2020-07-17 13:42:28 2449

转载 爬虫框架pyspider

前言pyspider是支持WebUI的,支持任务监控,项目管理,以及多种数据库的一个强大的爬虫框架,这个真的很好用!!!这主要不是教大家怎么使用,怎么怎么样,主要是让大家懂运行的原理,以及框架的整体结构!今天主要是分为这几部分:1.为什么要使用pyspider?2.pyspider的安装3.pyspider简单使用4.pyspider框架的架构和执行流程一、为什么要使用pyspider?我们很好奇,我们明明有了Scrapy框架,为什么还要使用pyspider框架呢?我们说两点

2020-07-16 16:39:37 286

原创 java判断两个时间相差得天数

方法一:转化为毫秒数,再除以一天得毫秒数/** * 通过时间秒毫秒数判断两个时间的间隔 * @param date1 * @param date2 * @return */ public static int differentDaysByMillisecond(Date date1,Date date2) { int days = (int) ((date2.getTime() - date1.getTime()) /...

2020-06-30 19:08:51 1550

原创 linux输入特殊分割符 ^A

1、首先进入插入(编辑)模式;2、然后按ctrl + v 键,最后按 ctrl + a 即可。

2020-06-27 22:31:11 3116 1

原创 yarn-site.xml参数配置详解

Hadoop yarn配置参数参照site:http://hadoop.apache.org/docs/r2.6.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml我们在配置yarn的时候只有充分了解各参数的含义,才能避免隐患。这些参数均在yarn-site.xml中配置  以下涉及的简写:  RM:ResourceManager  AM:ApplicationMaster  NM:NodeManager参数 默认...

2020-06-27 21:56:49 3012

原创 Hadoop HA集群启动后,两个namenode都是standby的解决办法

Hadoop HA集群启动后,两个namenode都是standby的解决办法手动切换active,提示:[hadoop@jl2tina10 sbin]$ hdfs haadmin -transitionToActive nn1Automatic failover is enabled for NameNode at jl2tina11/192.168.85.11:9000Refusing to manually manage HA state, since it may causea s

2020-06-25 22:53:39 3520

原创 Mapper和Reduce阶段流程

一、MR的编写1. Mapper MapTask中负责Map阶段核心运算逻辑的类! ①继承Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT> ②KEYIN,VALUEIN 取决于InputFormat中RecordReader的设置 KEYOUT,VALUEOUT由自己定义 ③Mapper的运行流程 由MapTask调用Mapper.run() ...

2020-06-20 20:51:41 1336

原创 hadoop各版本hadoop.dll和winutils.exe缺少这两个文件

windows下运行hadoop的mr任务,控制台报一下错误:缺少winutils.exeERROR Shell: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.at org.apache.hadoop.util.Shell.getQ.

2020-06-16 22:26:26 6129 4

原创 Windows 下Hadoop的环境变量配置

一、安装JDK1、下载路径:http://www.oracle.com/technetwork/java/javase/downloads/index.html2、安装到C:\Java\jdk1.8.0_121(安装时不要安装到有空格的目录路径中,这样Hadoop在找JAVA_HOME的时候会找不到)二、配置Java环境变量1、JAVA_HOME:C:\Java\jdk1.8.0_1212、CLASSPATH:.;%JAVA_HOME%\lib\dt.jar;%JAVA_H...

2020-06-14 12:15:20 1358

logback-spring.xml

logback-spring.xml

2021-05-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除