jl2tina-CSDN博客

原创 grafana、prometheus监控linux、mysql等

prometheus、grafana监控安装部署

2022-08-29 17:34:42 4405

场景描述：　　公司埋点项目，数据从接口服务写入kafka集群，再从kafka集群消费写入HDFS文件系统，最后通过Hive进行查询输出。这其中存在一个问题就是：埋点接口中的数据字段是变化，后续会有少量字段添加进来。这导致Hive表结构也需要跟着变化，否则无法通过Hive查询到最新添加字段的数据。解决办法：　　为数据表添加字段，字段必须添加到已有字段的最后面。因为已经存在的数据是按照之前的表结构写入到HDFS文件中的，当添加新字段时为了能兼容前面已经存在的数据。在新增的字段加到分区表后，之前.

2021-06-16 15:13:52 1914

原创 window 10禁止更新

禁用“Windows Update”更新服务首先我们鼠标右键点击“开始”菜单，找到并点击“运行”或者键盘上使用快捷键“WIN+R”打开运行，如下图所示。在运行输入框中输入“services.msc”打开服务，并回车键确定，如下图所示。我们在服务中找到[Windows Update]一项，我们双击打开[Windows Update]，如下图所示。我们将启动类型修改至“禁用”，再将该服务“停止”，点击“应用”按钮，不过系统自动启用失败依然会打开的，不用急，往下看。我们再去“恢

2021-05-20 16:39:32 335

原创简洁版logback.xml

nohup java -jar -Dserver.port=9090-Dcatalina.home=/data/softwares/app/tomcat-test-xxl-job-9090/logback-logs/ #打印logback日志 info error warn debug 产生不同文件 catalina.home为logback.xml中的变量xxl-job-admin-2.0.2.jar >/data/softwares/app/tomcat-test-xx...

2021-05-20 16:13:33 358

原创 logback.xml

<?xml version="1.0" encoding="UTF-8"?><configuration scan="true"> <property name="BODYGUARD_LOG_LEVEL" value="INFO"/> <include resource="logging/logback-bodyguard.xml"/> <spring.

2021-05-20 16:04:04 158

转载 Git（Gitee）之 SSH环境部署，并使用 SSH 地址下载代码

一、GItGit(读音为/gɪt/。)是一个开源的分布式版本控制系统，可以有效、高速地处理从很小到非常大的项目版本管理。 [1]Git 是Linus Torvalds为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件二、下载安装Git 1、官方地址为：https://git-scm.com/download/win2、下载完之后，双击安装3、选择安装目录4、选择组件5、开始菜单目录名设置6、选择使用命令行环境7、...

2021-04-03 15:40:57 1513

转载 Java基于LoadingCache实现本地缓存

Java基于LoadingCache实现本地缓存一、添加maven依赖<dependency> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> <version>27.1-jre</version></dependency>二、CacheBuilder方法说明1️⃣LoadingCa.

2021-02-08 09:35:33 857 2

原创 docker 中安装mysql 5.7

一、首先安装docker很简单:1、安装环境查看此处在Centos7进行安装，可以使用以下命令查看CentOS版本lsb_release -a在CentOS 7安装docker要求系统为64位、系统内核版本为 3.10 以上，可以使用以下命令查看uname -r2、用yum源安装2.1 查看是否已安装docker列表yum list installed | grep docker2.2 安装dockeryum -y install docker-y表示不询问安装，.

2020-11-10 16:37:25 261

转载 Docker在Linux下载安装及部署

一、安装docker的基本命令1. 首先需要查看Linux内核版本uname -r2. 安装dockeryum install docker或者sudo wget -qO- https://get.docker.com | sh3. 安装完成后，查看docker版本docker version或者docker -v二、使用docker的基本操作命令docker 安装完成后，就需要记一下docker启动关闭等基本的命令1.启..

2020-11-03 18:29:07 647

原创 Docker在Linux上下载与安装配置

1、删除旧版本的docker，防止有残留sudo yum remove docker \ docker-client \ docker-client-latest \ docker-common \ docker-latest \ docker-latest-logrotate \ doc

2020-11-03 18:15:47 399

原创将tomcat 打成docker 镜像

1,安装docker环境2,先创建一个我们自己玩的目录3、自己项目是war、jar 包打好；4、把打包好的Tomcat和jdk上传jdk-8u11-linux-x64.tar.gz5、编写Dockerfile 注意名字必须为Dockerfile 且没有后缀vim Dockerfile输入以下内容: #基本镜像 FROM centos #把你上传的jdk放到docker容器里面的root目录下 ADD jdk-8u11-linux-x64.ta

2020-10-30 15:10:56 1281

转载百度开源 Apache Doris (Incubating) 原理与实践

Apache Doris简介Doris（原百度 Palo）是一款基于大规模并行处理技术的分布式 SQL 数据库，由百度在2017年开源，2018年8月进入 Apache 孵化器。本次将主要从以下三部分介绍Apache Doris. Doris定位：即 Doris所要面临的业务场景及解决的问题 Doris关键技术 Doris案例介绍 01Doris定位实时数据仓库Doris产品定位我们首先看一下Doris整个的定位。 MPP 架构...

2020-10-30 14:22:32 3237

转载使用jar命令替换jar包中指定文件

一、jar命令用法 -c 创建新的归档文件　-t 列出归档目录和文件　-x 解压缩已归档的指定（或所有）文件　-u 更新现有的归档文件　-v 在标准输出中生成详细输出 / 提供更详细输出信息　-f 指定归档文件名 / 为压缩包指定名字　-m 包含指定清单文件中的清单信息　-e 为捆绑到可执行 jar 文件的独立应用程序指定应用程序入口点　-0 仅存储，不压缩，只是打包；不使用任何 ZIP 压缩　-M 不创建条目的清单文件 META-INF/MANIFEST.MF　-i ...

2020-10-23 17:29:25 1838

转载 hbase的查询scan功能注意点（setStartRow, setStopRow）

Scan scan = new Scan();scan.setStartRow(“5193:”);scan.setStopRow(“5194:”);ResultScanner result = table.getScanner(scan);for (Result r : result) { get it......}查找原本期望：从下列中5193:15193:25194:151939:151942:1取出5193:---5194...

2020-09-29 18:38:20 1003

原创 kafka处理消息写入和备份的全流程

Base Offset：是起始位移，该副本中第一条消息的offset，如下图，这里的起始位移是0，如果一个日志文件写满1G后（默认1G后会log rolling），这个起始位移就不是0开始了。 HW（high watermark）：副本的高水印值； LEO（log end offset）：日志末端位移，代表日志文件中下一条待写入消息的offset；LEO包括leader副本和follower副本。leader LEO：leader的LEO就保存在其所在的broker的缓存里，当lea.

2020-09-23 18:20:53 1280

原创 MVC思想

MVC流程图如下图所示：MVC是一种架构模式 ---程序分层，分工合作，既相互独立，又协同工作MVC是一种思考方式 --- 需要将什么信息展示给用户? 如何布局？调用哪些业务逻辑？MVC核心思想：业务数据抽取同业务数据实现相分离总结：模型层(M) 业务数据的信息表示，关注支撑业务的信息构成，通常是多个业务实体的组合视图层(V) 为用户提供UI，重点关注数据的呈现控制器(C) 接受用户请求，并...

2020-09-11 18:53:24 328

原创 k8s相关操作命令

查看全局某个类型的服务kubectl get ${type}[s] --all-namespaces [-o wide]常用的查看命令1、查看所有命令空间下的pod 以及服务状态kubectl get pod[s] --all-namespaces2、查看所有服务的部署节点，以及对应内部IP 服务状态，所属命令空间kubectl get ${type}[s] --all-namespaces -o wide3、服务属于哪个命名空间下，应用部署的个数sudo kubectl get d...

2020-09-07 11:23:04 441

原创 AWK 相关命令使用

1、输出所有awk '{print}' a_formula_params_d_20200520.txtawk -F "^A" '{print}' a_formula_params_d_20200520.txt2、查询文件中 A类客群额度计算awk '{print "A类客群额度计算"}' a_formula_params_d_20200520.txt3、

2020-09-07 11:17:20 1848

原创 hive中UDF，UDAF，UDTF

UDF，UDAF，UDTF三个函数是Hive中常用的自定义函数，这些函数可以实现复杂的功能，且可以重复使用。UDF(User-Defined Functions)功能特点：输入一条数据，输出一条数据；是一个一对一的关系，属于单纯处理操作。用途说明：UDF函数可以直接应用于hive中的select语句，对查询结果做格式化或者各种处理后，再输出内容。开发相关：1.自定义UDF需要继承 org.apache.hadoop.hive.ql.exec.UDF;2.一个UDF必须实.

2020-08-12 19:19:32 286

原创 kafka的consumer接收消息消费

默认情况下，consumer是自动提交位移的，可以修改consumer端参数enable.auto.commit=false来设置提交方式为手动提交。默认情况下，自动提交间隔为5秒，可以通过修改 auto.commit.interval.ms=1000来配置自动提交的时间间隔。自动提交降低了开发成本，但是不能细粒度处理位移提交。例如一个典型的consumer应用场景：用户需要对poll方法返回的消息集合中的消息执行业务级处理，只有消息真正被处理完之后再提交位移，使用自动提交位移显然...

2020-08-12 18:10:27 1191

原创 kafka中的coordinator

1、Transaction CoordinatorKafka事务Transaction Coordinator 事务的交易协调员PID ---通过---> Transaction Coordinator---获得--->Transaction ID为了实现跨分区跨会话的事务，需要引入一个全局唯一的Transaction ID，并将Producer获得的PID和Transaction ID绑定。这样当Producer重启后就可以通过正在进行的Transaction ID获得原来..

2020-08-12 16:59:48 3014 3

原创 Kafka消息数据积压，消费能力不足如何处理？

可以从两方面考虑：1、如果是Kafka消费能力不足，则可以考虑增加Topic的分区数（一般一个Topic分区数为3-10个），并且同时提升消费组的消费者数量，消费者数==分区数。两者缺一不可2、如果是下游的数据处理不及时：则提高每批次拉取的数量。批次拉取数据过少（拉取数据/处理时间<生产速度），使处理的数据小于生产的数据，也会造成数据积压。...

2020-08-11 19:18:26 4197

原创 kafka分区与topic 理解；

kafka：topic为什么要进行分区?副本机制是如何做的？https://blog.csdn.net/weixin_38750084/article/details/82942564如何根据数据量确定Kafka分区个数、Kafka的分区是不是越多越好、Kafak生产者分发策略，消费者负载均衡 09https://blog.csdn.net/weixin_42641909/article/details/89294698...

2020-08-05 18:01:12 918

转载 Shell使用grep和sed命令提取json数据中指定字段的值

示例：1.有一个example.txt文件，文件内容如下：{“err_code”：200，"err_msg"："this is no error"， “status”： 1， “dev_name”： “mylinux”， “dev_id”： 123}2.如果我们想要获取dev_id字段的值，可以在命令行下使用如下一行命令：cat example.txt | sed 's/,/\n/g' | grep "dev_id" | sed 's/:/\n/g' | sed '1d' | s..

2020-08-04 18:18:39 2491

原创 map-combine过程解

●read阶段：通过RecordReader从InputSplit分片中将数据解析成一个个key/value。●map阶段：将由RecordReader解析出的key/value交给map()方法处理，并生成一个个新的key/value。●collect阶段：将map()中新生成key/value由OutpCollector.collect()写入内存中的环形数据缓冲区。●spill阶段：当环形缓冲区达到一定阀值后，会将数据写到本地磁盘上，生成一个spill文件。在写文件之前，会先将数据进行一次...

2020-08-03 18:15:51 735

原创 Hadoop的三种调度器

Yarn的默认调度器、调度器分类、以及他们之间的区别1）Hadoop调度器重要分为三类：FIFO、Capacity Scheduler（容量调度器）和Fair Sceduler（公平调度器）。Hadoop2.7.2默认的资源调度器是容量调度器2）区别：FIFO调度器：先进先出，同一时间队列中只有一个任务在执行。容量调度器：多队列；每个队列内部先进先出，同一时间队列中只有一个任务在执行。队列的并行度为队列的个数。公平调度器：多队列；每个队列内部按照..

2020-08-03 16:09:26 2360

原创 hive排序

全排序：order by部分排序：sort by二次排序：cluster by 在排序是有多个条件排序；如 XXXX startTime desc , id desc;分区排序：如果使用select * from table 则就是默认了随机排序，则；可以指定分区排序，关键字：可以设置reduces的个数：set mapreduce.job.reduces=5可以看到reduce tasks 数量为：5...

2020-07-28 19:44:43 147

原创 Map Task数目的确定和 Reduce Task数目的指定

Map Task数目的确定和Reduce Task数目的指定————自然得到结论，前者是后者决定的，后者是人为指定的。查看源码可以很容易看懂1、MapReduce作业中Map Task数目的确定：1）MapReduce从HDFS中分割读取Split文件，通过Inputformat交给Mapper来处理。Split是MapReduce中最小的计算单元，一个Split文件对应一个Map Task2）默认情况下HDFS种的一个block，对应一个Split。3）当执行Wordcount时： ...

2020-07-24 15:06:23 1407

原创 shell 脚本同步es数据，以及jq工具使用

业务场景：1、同步数据：同步生产es数据到离线es；2、比对条数：同样条件查询生产数据条数与离线es同步的数据条数是否一致，不一致说明有丢失数据，或者更新了数据；jq:非常强大的json 解析工具；与shell完美搭配（只用过到shell中），有搜索、指定输出key等功能。...

2020-07-22 14:30:59 497

原创 docker 外网拉镜像打包，到内网安装镜像

由于内网环境无法拉取dockhub镜像，在可以联网的机子上拉镜像,用下面的命令把镜像打包为tar文件。1、save命令将镜像保存为tar文件docker save -o mysql.tar mysql:5.7或者docker save mysql:5.7 > mysql.tar2、load命令将tar文件加载到本地镜像中（将外网的tar镜像包 load到内网的机器上）docker load -i mysql.tar或者docker load < mysql.tar

2020-07-17 13:42:28 2787

转载爬虫框架pyspider

前言pyspider是支持WebUI的，支持任务监控，项目管理，以及多种数据库的一个强大的爬虫框架，这个真的很好用！！！这主要不是教大家怎么使用，怎么怎么样，主要是让大家懂运行的原理，以及框架的整体结构！今天主要是分为这几部分：1.为什么要使用pyspider？2.pyspider的安装3.pyspider简单使用4.pyspider框架的架构和执行流程一、为什么要使用pyspider？我们很好奇，我们明明有了Scrapy框架，为什么还要使用pyspider框架呢？我们说两点

2020-07-16 16:39:37 351

原创 java判断两个时间相差得天数

方法一：转化为毫秒数，再除以一天得毫秒数/** * 通过时间秒毫秒数判断两个时间的间隔 * @param date1 * @param date2 * @return */ public static int differentDaysByMillisecond(Date date1,Date date2) { int days = (int) ((date2.getTime() - date1.getTime()) /...

2020-06-30 19:08:51 1626

原创 linux输入特殊分割符 ^A

1、首先进入插入（编辑）模式；2、然后按ctrl + v 键，最后按 ctrl + a 即可。

2020-06-27 22:31:11 3543 1

原创 yarn-site.xml参数配置详解

Hadoop yarn配置参数参照site：http://hadoop.apache.org/docs/r2.6.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml我们在配置yarn的时候只有充分了解各参数的含义，才能避免隐患。这些参数均在yarn-site.xml中配置　　以下涉及的简写：　　RM：ResourceManager　　AM：ApplicationMaster　　NM：NodeManager参数默认...

2020-06-27 21:56:49 3313

原创 Hadoop HA集群启动后，两个namenode都是standby的解决办法

Hadoop HA集群启动后，两个namenode都是standby的解决办法手动切换active，提示：[hadoop@jl2tina10 sbin]$ hdfs haadmin -transitionToActive nn1Automatic failover is enabled for NameNode at jl2tina11/192.168.85.11:9000Refusing to manually manage HA state, since it may causea s

2020-06-25 22:53:39 4122

原创 Mapper和Reduce阶段流程

一、MR的编写1. Mapper MapTask中负责Map阶段核心运算逻辑的类！ ①继承Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT> ②KEYIN,VALUEIN 取决于InputFormat中RecordReader的设置 KEYOUT,VALUEOUT由自己定义 ③Mapper的运行流程由MapTask调用Mapper.run() ...

2020-06-20 20:51:41 1505

原创 hadoop各版本hadoop.dll和winutils.exe缺少这两个文件

windows下运行hadoop的mr任务，控制台报一下错误：缺少winutils.exeERROR Shell: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.at org.apache.hadoop.util.Shell.getQ.

2020-06-16 22:26:26 6762 4

原创 Windows 下Hadoop的环境变量配置

一、安装JDK1、下载路径：http://www.oracle.com/technetwork/java/javase/downloads/index.html2、安装到C:\Java\jdk1.8.0_121（安装时不要安装到有空格的目录路径中，这样Hadoop在找JAVA_HOME的时候会找不到）二、配置Java环境变量1、JAVA_HOME:C:\Java\jdk1.8.0_1212、CLASSPATH:.;%JAVA_HOME%\lib\dt.jar;%JAVA_H...

2020-06-14 12:15:20 1476

logback-spring.xml

空空如也