自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 收藏
  • 关注

原创 docker 中安装mysql 5.7

一、首先安装docker很简单:1、安装环境查看此处在Centos7进行安装,可以使用以下命令查看CentOS版本lsb_release -a在CentOS 7安装docker要求系统为64位、系统内核版本为 3.10 以上,可以使用以下命令查看uname -r2、用yum源安装2.1 查看是否已安装docker列表yum list installed | grep docker2.2 安装dockeryum -y install docker-y表示不询问安装,.

2020-11-10 16:37:25 21

原创 Docker在Linux下载安装及部署

一、安装docker的基本命令1. 首先需要查看Linux内核版本uname -r2. 安装dockeryum install docker或者sudo wget -qO- https://get.docker.com | sh3. 安装完成后,查看docker版本docker version或者docker -v二、使用docker的基本操作命令docker 安装完成后,就需要记一下docker启动关闭等基本的命令1.启..

2020-11-03 18:29:07 17

原创 Docker在Linux上下载与安装配置

1、删除旧版本的docker,防止有残留sudo yum remove docker \ docker-client \ docker-client-latest \ docker-common \ docker-latest \ docker-latest-logrotate \ doc

2020-11-03 18:15:47 13

原创 将tomcat 打成docker 镜像

1,安装docker环境2,先创建一个我们自己玩的目录3、自己项目是war、jar 包打好;4、把打包好的Tomcat和jdk上传jdk-8u11-linux-x64.tar.gz5、编写Dockerfile 注意名字必须为Dockerfile 且没有后缀vim Dockerfile输入以下内容: #基本镜像 FROM centos #把你上传的jdk放到docker容器里面的root目录下 ADD jdk-8u11-linux-x64.ta

2020-10-30 15:10:56 14

转载 百度开源 Apache Doris (Incubating) 原理与实践

Apache Doris简介Doris(原百度 Palo)是一款基于大规模并行处理技术的分布式 SQL 数据库,由百度在2017年开源,2018年8月进入 Apache 孵化器。本次将主要从以下三部分介绍Apache Doris. Doris定位:即 Doris所要面临的业务场景及解决的问题 Doris关键技术 Doris案例介绍 01Doris定位实时数据仓库Doris产品定位我们首先看一下Doris整个的定位。 MPP 架构...

2020-10-30 14:22:32 68

转载 使用jar命令替换jar包中指定文件

一、jar命令用法 -c 创建新的归档文件 -t 列出归档目录和文件 -x 解压缩已归档的指定(或所有)文件 -u 更新现有的归档文件 -v 在标准输出中生成详细输出 / 提供更详细输出信息 -f 指定归档文件名 / 为压缩包指定名字 -m 包含指定清单文件中的清单信息 -e 为捆绑到可执行 jar 文件的独立应用程序指定应用程序入口点 -0 仅存储,不压缩,只是打包;不使用任何 ZIP 压缩 -M 不创建条目的清单文件 META-INF/MANIFEST.MF -i ...

2020-10-23 17:29:25 28

转载 hbase的查询scan功能注意点(setStartRow, setStopRow)

Scan scan = new Scan();scan.setStartRow(“5193:”);scan.setStopRow(“5194:”);ResultScanner result = table.getScanner(scan);for (Result r : result) { get it......}查找原本期望:从下列中5193:15193:25194:151939:151942:1取出5193:---5194...

2020-09-29 18:38:20 55

原创 kafka处理消息写入和备份的全流程

Base Offset:是起始位移,该副本中第一条消息的offset,如下图,这里的起始位移是0,如果一个日志文件写满1G后(默认1G后会log rolling),这个起始位移就不是0开始了。 HW(high watermark):副本的高水印值; LEO(log end offset):日志末端位移,代表日志文件中下一条待写入消息的offset;LEO包括leader副本和follower副本。leader LEO:leader的LEO就保存在其所在的broker的缓存里,当lea.

2020-09-23 18:20:53 35

原创 MVC思想

MVC流程图如下图所示:MVC是一种架构模式 ---程序分层,分工合作,既相互独立,又协同工作MVC是一种思考方式 --- 需要将什么信息展示给用户? 如何布局? 调用哪些业务逻辑?MVC核心思想:业务数据抽取同业务数据实现相分离总结: 模型层(M) 业务数据的信息表示,关注支撑业务的信息构成,通常是多个业务实体的组合 视图层(V) 为用户提供UI,重点关注数据的呈现 控制器(C) 接受用户请求,并...

2020-09-11 18:53:24 8

原创 k8s相关操作命令

查看全局某个类型的服务kubectl get ${type}[s] --all-namespaces [-o wide]常用的查看命令1、查看所有命令空间下的pod 以及服务状态kubectl get pod[s] --all-namespaces2、查看所有服务的部署节点,以及对应内部IP 服务状态,所属命令空间kubectl get ${type}[s] --all-namespaces -o wide3、服务属于哪个命名空间下,应用部署的个数sudo kubectl get d...

2020-09-07 11:23:04 56

原创 AWK 相关命令使用

1、输出所有awk '{print}' a_formula_params_d_20200520.txtawk -F "^A" '{print}' a_formula_params_d_20200520.txt2、查询文件中 A类客群额度计算awk '{print "A类客群额度计算"}' a_formula_params_d_20200520.txt3、

2020-09-07 11:17:20 29

原创 hive中UDF,UDAF,UDTF

UDF,UDAF,UDTF三个函数是Hive中常用的自定义函数,这些函数可以实现复杂的功能,且可以重复使用。UDF(User-Defined Functions)功能特点:输入一条数据,输出一条数据;是一个一对一的关系,属于单纯处理操作。用途说明:UDF函数可以直接应用于hive中的select语句,对查询结果做格式化或者各种处理后,再输出内容。开发相关:1.自定义UDF需要继承 org.apache.hadoop.hive.ql.exec.UDF;2.一个UDF必须实.

2020-08-12 19:19:32 37

原创 kafka的consumer接收消息消费

默认情况下,consumer是自动提交位移的,可以修改consumer端参数enable.auto.commit=false来设置提交方式为手动提交。默认情况下,自动提交间隔为5秒,可以通过修改 auto.commit.interval.ms=1000来配置自动提交的时间间隔。自动提交降低了开发成本,但是不能细粒度处理位移提交。例如一个典型的consumer应用场景:用户需要对poll方法返回的消息集合中的消息执行业务级处理,只有消息真正被处理完之后再提交位移,使用自动提交位移显然...

2020-08-12 18:10:27 47

原创 kafka中的coordinator

1、Transaction CoordinatorKafka事务Transaction Coordinator 事务的交易协调员PID ---通过---> Transaction Coordinator---获得--->Transaction ID为了实现跨分区跨会话的事务,需要引入一个全局唯一的Transaction ID,并将Producer获得的PID和Transaction ID绑定。这样当Producer重启后就可以通过正在进行的Transaction ID获得原来..

2020-08-12 16:59:48 99

原创 Kafka消息数据积压,消费能力不足如何处理?

可以从两方面考虑:1、如果是Kafka消费能力不足,则可以考虑增加Topic的分区数(一般一个Topic分区数为3-10个),并且同时提升消费组的消费者数量,消费者数==分区数。两者缺一不可2、如果是下游的数据处理不及时:则提高每批次拉取的数量。批次拉取数据过少(拉取数据/处理时间<生产速度),使处理的数据小于生产的数据,也会造成数据积压。...

2020-08-11 19:18:26 488

原创 kafka分区与topic 理解;

kafka:topic为什么要进行分区?副本机制是如何做的?https://blog.csdn.net/weixin_38750084/article/details/82942564如何根据数据量确定Kafka分区个数、Kafka的分区是不是越多越好、Kafak生产者分发策略,消费者负载均衡 09https://blog.csdn.net/weixin_42641909/article/details/89294698...

2020-08-05 18:01:12 97

转载 Shell使用grep和sed命令提取json数据中指定字段的值

示例:1.有一个example.txt文件,文件内容如下:{“err_code”:200,"err_msg":"this is no error", “status”: 1, “dev_name”: “mylinux”, “dev_id”: 123}2.如果我们想要获取dev_id字段的值,可以在命令行下使用如下一行命令:cat example.txt | sed 's/,/\n/g' | grep "dev_id" | sed 's/:/\n/g' | sed '1d' | s..

2020-08-04 18:18:39 172

原创 map-combine过程解

●read阶段:通过RecordReader从InputSplit分片中将数据解析成一个个key/value。●map阶段:将由RecordReader解析出的key/value交给map()方法处理,并生成一个个新的key/value。●collect阶段:将map()中新生成key/value由OutpCollector.collect()写入内存中的环形数据缓冲区。●spill阶段:当环形缓冲区达到一定阀值后,会将数据写到本地磁盘上,生成一个spill文件。在写文件之前,会先将数据进行一次...

2020-08-03 18:15:51 50

原创 Hadoop的三种调度器

Yarn的默认调度器、调度器分类、以及他们之间的区别1)Hadoop调度器重要分为三类:FIFO、Capacity Scheduler(容量调度器)和Fair Sceduler(公平调度器)。Hadoop2.7.2默认的资源调度器是容量调度器2)区别:FIFO调度器:先进先出,同一时间队列中只有一个任务在执行。 容量调度器:多队列;每个队列内部先进先出,同一时间队列中只有一个任务在执行。队列的并行度为队列的个数。 公平调度器:多队列;每个队列内部按照..

2020-08-03 16:09:26 115

原创 hive排序

全排序:order by部分排序:sort by二次排序:cluster by 在排序是有多个条件排序;如 XXXX startTime desc , id desc;分区排序:如果使用select * from table 则就是默认了随机排序,则;可以指定分区排序,关键字:可以设置reduces的个数:set mapreduce.job.reduces=5可以看到reduce tasks 数量为:5...

2020-07-28 19:44:43 21

原创 Map Task数目的确定 和 Reduce Task数目的指定

Map Task数目的确定和Reduce Task数目的指定————自然得到结论,前者是后者决定的,后者是人为指定的。查看源码可以很容易看懂1、MapReduce作业中Map Task数目的确定:1)MapReduce从HDFS中分割读取Split文件,通过Inputformat交给Mapper来处理。Split是MapReduce中最小的计算单元,一个Split文件对应一个Map Task2)默认情况下HDFS种的一个block,对应一个Split。3)当执行Wordcount时: ...

2020-07-24 15:06:23 99

原创 shell 脚本同步es数据,以及jq工具使用

业务场景:1、同步数据:同步生产es数据到离线es;2、比对条数:同样条件查询生产数据条数与离线es同步的数据条数是否一致,不一致说明有丢失数据,或者更新了数据;jq:非常强大的json 解析工具;与shell完美搭配(只用过到shell中),有搜索、指定输出key等功能。...

2020-07-22 14:30:59 66

原创 docker 外网拉镜像打包,到内网安装镜像

由于内网环境无法拉取dockhub镜像,在可以联网的机子上拉镜像,用下面的命令把镜像打包为tar文件。1、save命令将镜像保存为tar文件docker save -o mysql.tar mysql:5.7或者docker save mysql:5.7 > mysql.tar2、load命令将tar文件加载到本地镜像中(将外网的tar镜像包 load到内网的机器上)docker load -i mysql.tar或者docker load < mysql.tar

2020-07-17 13:42:28 105

转载 爬虫框架pyspider

前言pyspider是支持WebUI的,支持任务监控,项目管理,以及多种数据库的一个强大的爬虫框架,这个真的很好用!!!这主要不是教大家怎么使用,怎么怎么样,主要是让大家懂运行的原理,以及框架的整体结构!今天主要是分为这几部分:1.为什么要使用pyspider?2.pyspider的安装3.pyspider简单使用4.pyspider框架的架构和执行流程一、为什么要使用pyspider?我们很好奇,我们明明有了Scrapy框架,为什么还要使用pyspider框架呢?我们说两点

2020-07-16 16:39:37 26

原创 java判断两个时间相差得天数

方法一:转化为毫秒数,再除以一天得毫秒数/** * 通过时间秒毫秒数判断两个时间的间隔 * @param date1 * @param date2 * @return */ public static int differentDaysByMillisecond(Date date1,Date date2) { int days = (int) ((date2.getTime() - date1.getTime()) /...

2020-06-30 19:08:51 96

原创 linux输入特殊分割符 ^A

1、首先进入插入(编辑)模式;2、然后按ctrl + v 键,最后按 ctrl + a 即可。

2020-06-27 22:31:11 455

原创 yarn-site.xml参数配置详解

Hadoop yarn配置参数参照site:http://hadoop.apache.org/docs/r2.6.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml我们在配置yarn的时候只有充分了解各参数的含义,才能避免隐患。这些参数均在yarn-site.xml中配置  以下涉及的简写:  RM:ResourceManager  AM:ApplicationMaster  NM:NodeManager参数 默认...

2020-06-27 21:56:49 194

原创 Hadoop HA集群启动后,两个namenode都是standby的解决办法

Hadoop HA集群启动后,两个namenode都是standby的解决办法手动切换active,提示:[hadoop@jl2tina10 sbin]$ hdfs haadmin -transitionToActive nn1Automatic failover is enabled for NameNode at jl2tina11/192.168.85.11:9000Refusing to manually manage HA state, since it may causea s

2020-06-25 22:53:39 137

原创 Mapper和Reduce阶段流程

一、MR的编写1. Mapper MapTask中负责Map阶段核心运算逻辑的类! ①继承Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT> ②KEYIN,VALUEIN 取决于InputFormat中RecordReader的设置 KEYOUT,VALUEOUT由自己定义 ③Mapper的运行流程 由MapTask调用Mapper.run() ...

2020-06-20 20:51:41 64

原创 hadoop各版本hadoop.dll和winutils.exe缺少这两个文件

windows下运行hadoop的mr任务,控制台报一下错误:缺少winutils.exeERROR Shell: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.at org.apache.hadoop.util.Shell.getQ.

2020-06-16 22:26:26 732

原创 Windows 下Hadoop的环境变量配置

一、安装JDK1、下载路径:http://www.oracle.com/technetwork/java/javase/downloads/index.html2、安装到C:\Java\jdk1.8.0_121(安装时不要安装到有空格的目录路径中,这样Hadoop在找JAVA_HOME的时候会找不到)二、配置Java环境变量1、JAVA_HOME:C:\Java\jdk1.8.0_1212、CLASSPATH:.;%JAVA_HOME%\lib\dt.jar;%JAVA_H...

2020-06-14 12:15:20 61

原创 linux 命令

获取父目录:首先 dirname data 如果不是绝对路径,则返回的是 .然后pwd -p 打印路径能都方式软连接而造成的获取路径错误

2020-06-13 14:18:10 28

原创 hdfs的运行模式

本地模式:fs.defaultFS=file:///分布式模式:fs.defaultFS=hdfsL//

2020-06-13 11:02:30 27

原创 hadoop

首先要安装jdk解压到指定目录,并且配置vi /etc/profile#jdk配置export JAVA_HOME=/data/jl2tina/app/bigdata/jdk1.8.0_121export JRE_HOME=$JAVA_HOME/jreexport PATH=$JAVA_HOME/bin:$JAVA_HOME:$PATHexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tool.jar#Hadoop配置

2020-06-11 17:48:26 48

原创 Spring Boot 打jar包改成war包模式

修改pom.xml文件将jar包改成war包 <!--<packaging>jar</packaging>--><packaging>war</packaging> 添加Spring Boot 的tomcat依赖 <!--添加tomcat--><dependency> <groupId>org.springframework.boot</groupId> .

2020-06-08 10:21:47 70

原创 centos7 下载安装mysql5.7

如何是64位,请下载64位安装包,32请下载32位安装包下载地址:https://dev.mysql.com/downloads/然后直接使用linux命令下载到linxu指定文件夹下:wgethttps://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.25-linux-glibc2.12-x86_64.tar.gz百度云盘链接: https://pan.baidu.com/s/13wwXYVH9gIETeUMaO4uDdw ...

2020-06-06 20:06:53 62

转载 Java8 stream 根据对象字段去重

public class Java8StreamTest { public static class Book{ private String id; private String name; public Book(String id, String name) { this.id = id; this.name = name; } public String.

2020-06-05 14:19:17 490

原创 开发平常下载软件的路径

node.js 下载地址https://npm.taobao.org/mirrors/node/

2020-05-28 15:33:19 34

转载 新版Mac docker(v19.03.8)镜像下载速度太慢解决方法

新版mac docker(v19.03.8)镜像下载太慢解决办法,在docker图标 --> Preferences -->Docker Engine 界面下找到如下图,将加速链接加入到json中,我使用的是阿里云的加速链接,快到起飞修改json如下:{"debug": true,"experimental": false,"registry-mirrors": ["https://c8it25aj.mirror.aliyuncs.com"]}测试镜像加速是否添...

2020-05-27 22:08:11 67

原创 mac 修改idea.vmoptions文件后,不能再启动

由于修改错误,造成重新安装idea都没有办法启动;原因是一直在读取错误的文件修改方法:找到路径:/Users/lvdaokuan/Library/Application Support/JetBrains/IntelliJIdea2020.1修改idea.vmoptions中的错误即可...

2020-05-27 00:10:49 322

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除