爱折腾的小土豆-CSDN博客

原创 zookeeper启动后占用8080端口问题分析及解决

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务。它为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。我们经常在运行zookeeper服务时，不需要配置服务端口，服务默认会使用8080端口。若此端口与系统其他服务冲突，就需要手动变更zookeeper的服务端口。修改端口的方法是，打开配置文件zoo.cfg，在文件末行添加以下内容。以上配置完毕，然后重启zk服务生效；

2024-05-05 21:46:08 518 1

原创在 CentOS更改主机名的2种常用方法

打开终端并在 CentOS中输入hostname ，会输出当前主机名，默认情况下，主机名是 localhost.localdomain。保存更改，然后使用 hostname 命令确认您的主机名。如果它没有改变，那么您需要重新启动 CentOS服务器。更改主机名的最简单方法是编辑 /etc/hostname 文件。打开您的终端编辑，更改喜欢的任何主机名。Hostnamectl 是一个用于控制 Linux 系统主机名的工具。您还可以使用此工具更改主机名。如果要更改主机名，您可以按照以下2种方法。

2024-05-05 21:43:06 1380

原创 linux修改max user processes/file limits

centos/redhat系统，修改以上配置后，退出登录用户，再次重新登录，配置生效，但是启动的程序需要重启（也有动态修改程序的句柄数操作，后续介绍）；1、修改普通用户单个用户可同时运行的最大进程数（默认为 4096 ）其他操作系统目前没有验证，正常情况都是用户重新登录生效；3、查看Linux系统的句柄数。4、关于修改后生效问题。

2024-05-05 21:21:09 901 1

原创 IDEA 快捷键及模板介绍

1. 常用快捷键常用快捷键包括：CTRL + D：复制所在行。CTRL + Y：删除所在行。CTRL + X C V：分别是剪切、复制和粘贴所在行。CTRL + W：递进选择代码块。CTRL + P：提示方法的参数。CTRL + B：跳转到方法定义处。CTRL + + -：展开或关闭代码段。CTRL + F1：显示错误信息。CTRL + F8：设置断点。ALT + ↑ ↓：切换方法。SHIFT + 滚轮：横向移动屏幕。SHIFT + F10：执行。ALT + SHIFT + /

2024-04-13 16:38:04 487 1

原创 Linux文件句柄数引发的故障

A. 一个系统可以打开的文件描述符数量即所有用户的所有进程打开的文件描述符总数量受file-max限制。B. 一个进程可以打开的文件描述符的数量小于hard limit，而hard limit的值要小于nr_open。但是实际能打开的文件描述符的最大数量还和系统资源有关。C. 一个用户可以打开的文件描述符数量等于一个进程可以打开的文件描述符的数量* 一个用户最大可以打开的进程数量。

2023-12-10 22:12:02 1125

原创 MySQL index column size too large. the maximum column size is 767 bytes问题解决

以前部署环境在初始化这一步，毫无问题，一马平川，今天栽倒在平川的坑洼中，需要挣扎一波。报错信息一看是是与mysql的版本有关系，果断查询业务方提供的mysql版本，结果给出MySQL5.7，到此这就问题原因出来了。无法相信自己的眼睛，果断重新执行，哇塞，毫无意外，果断报错。对sql脚本进行修改，在出问题的建表语句后面，添加ROW_FORMAT=DYNAMIC，更改建表的行格式，来规避MySQL5.7索引长度的问题；当场觉得庆幸，辛苦检查了一波，要不然等交付后，出问题了，要背一个大龟壳，享受万夫所指…

2023-12-10 11:02:13 1195

原创 TCP基础概念了解

TCP（传输控制协议）是一种面向连接的、可靠的、基于字节流的传输层通信协议，它完成第四层传输层所指定的功能。TCP 协议的特点是：面向连接：一定是「一对一」才能连接，不能像 UDP 协议可以一个主机同时向多个主机发送消息，也就是一对多是无法做到的。可靠交付：无论的网络链路中出现了怎样的链路变化，TCP 都可以保证一个报文一定能够到达接收端。面向字节流：也就是说仅仅把上层协议传递过来的数据当成字节传输。我们主要来了解TCP的三次握手和四次挥手。

2023-12-09 22:29:34 1153

原创 TCP连接数的那些事

在实际工作中，特别运维职业过程中，查询服务器的TCP是一个必备的技能，比如在工作中，开发反馈某个IP连接不上每个服务器、某台服务器突然登录不上、或者开发提供一个IP+端口需要你查询这个IP是什么服务，等等。，这个时候查询服务器的TCP服务就显得尤为重要，下面就直接展示工作中实际运用的命令;net.ipv4.tcp_tw_recycle = 1 表示开启TCP连接中TIME-WAIT sockets的快速回收，默认为0，表示关闭；3、统计已连接上本台服务器的主机，状态为"established"的个数。

2023-12-09 21:42:21 478

原创 HTTP 413 Request Entity Too Large解决方法

SpringBoot Java后端服务对上传文件大小做了限制，联系后端开发添加配置即可。上传文件确实过大，前后端链接超时，可自己设置断点续传，或者更改上传方案。后端转发服务器对上传文件做了限制（Nginx，Apache，lvs等后端服务器）,修改服务配置即可，如nginx可参考上文；网关服务器对上传文件大小做了限制，与转发服务器解决方法一致，修改配置即可。

2023-11-26 21:11:53 554

原创 docker数据目录迁移方法

我们在实际环境中安装docker，linux系统都是默认安装在系统盘的/var/lib/docker目录中，而在线上线下的服务器中，规划给系统盘的目录一般不会超过50G，所以在我们的docke环境中就会出现随着镜像过多会出现docker无法运行的情况，从而影响后端服务的运行，导致出现线上和线下的问题。把docker的存储目录拷贝到要迁移的目录中去，此处我们迁移的目录为/data2/docker_data;要解决上述的问题，最好的方法就是docker目录的迁移，以下提供了两种方法；

2023-11-25 21:42:19 1060

原创 docker目录清理

使用的环境中安装docker环境，但随着长时间的使用，系统根目录打满，导致容器服务失败，影响部署的服务；

2023-11-18 21:28:02 97

原创 Ansible模块介绍

一、Ansible命令运行方式及常用参数1、命令的格式：ansible 清单 -m 模块 -a 模块参数2、常用的参数：名称含义-version 显示版本-m module 指定模块，默认为command模块-v 详细过程 -vv -vvv更详细过程-list 显示主机列表，也可以用–list-hosts-k 提示输入ssh连接密码，默认key认证-C 预执行检测-T 执行命令的超时时间，默认10s-b 执行sudo切换身份操作。

2023-07-09 22:28:12 1173

原创 spark任务执行流程及数据本地化介绍

Spark中数据的本地化方式分为5种，优先级依次是1到5PROCESS_LOCAL：进程本地化；表示 task 要计算的数据在同一个 Executor 中；如图：NODE_LOCAL：节点本地化；速度稍慢，因为数据需要在不同的进程之间传递或从文件中读取。分为两种情况，第一种：task 要计算的数据是在同一个 worker 的不同 Executor 进程中。第二种：task 要计算的数据是在同一个 worker 的磁盘上，或在 HDFS 上恰好有 block 在同一个节点上。

2023-07-02 23:27:06 258

原创在yarn的web原生界面上，点击ApplicationMaster无法看到SparkWebUi界面的问题解决

Yarn web proxy是YARN的一部分。默认情况下，它将作为资源管理器（RM）的一部分运行，但可以配置为以独立模式运行。代理的原因是为了缓解RM访问请求压力，也可以减少通过YARN进行基于网络的攻击的可能性。

2023-07-02 23:01:18 558

原创 hadoop 修改参数后刷新查看配置

我们经常会调整hadoop集群的参数，然后希望不重启集群，在线更新配置，然后查看配置是否生效。1.hadoop hdfs 刷新配置bin/hdfs dfsadmin -refreshSuperUserGroupsConfiguration2.yarn 刷新配置bin/yarn rmadmin -refreshSuperUserGroupsConfiguration3.hadoop HA高可用刷新配置如果集群配置了HA，需要在为主备namenode（node000和no..

2023-07-02 07:51:15 527 1

原创 kafka 从2.11-0.10.2.1 升级到2.11-2.0.0

1，升级过程一、升级准备：升级 192.168.1.120,192.168.1.9,192.168.1.218这三台机器准备好安装包，wget http://mirrors.hust.edu.cn/apache/kafka/2.0.0/kafka_2.11-2.0.0.tgz解压二、配置修改先操作192.168.1.218这台机器修改配置kafka_2.11-2.0.0的server.properties，添加2行，inter.br...

2023-07-02 07:49:04 509 1

原创 ERROR Error while creating ephemeral at /brokers/ids/1, node already exists

启动kafka broker报错以上错误原因：kafka的config目录下的server.properties文件中的broker.id出现了重复，导致zookeeper上出现的实例注册的ids/... 与broker本地配置的不一致，导致冲突，导致broker无法启动。解决方法：一、修改本地broker id对照zk上注册的ids实例，进行对照修改；get /brokers/ids/1 会出现对应的kafka broker 的ip二、登陆zk ，删除、brokers/...

2023-07-02 07:46:21 2258 1

原创 xml注释

单行注释：<!-- 注释内容 -- >多行注释：<!--注释内容1注释内容2-- >

2023-07-02 07:44:35 143 1

原创 Number of alive brokers ‘0’ does not meet the required replication factor ‘1’ for the offsets topic

kafka启动报：Number of alive brokers ‘0’ does not meet the required replication factor ‘1’ for the offsets topic 错误产生原因：Kafka broker.id 更改可能会导致此问题解决方法：方法一：把指定的broker.id 修改对，再重启broker(未测试)查找对应id的方法，登陆zookeeper，sh zkCli.shls /brokers/idsget /brokers/

2023-07-02 07:43:11 1968 1

原创 hive sql表中敏感字段查询报ParseException错误

hive sql表中敏感字段查询报cannot recognize input near ‘time’ ‘string’ ‘,’ in column name or constraint 解决方法：在sql中把这个敏感字段加反引号解决

2023-07-02 07:42:39 1219 1

原创 kafka删除topic消息的三种方式

kafka删除topic消息的三种方式方法一：快速配置删除法（确保topic数据不要了）1.kafka启动之前，在server.properties配置delete.topic.enable=true2.执行命令bin/kafka-topics.sh --delete --topic test --zookeeper zk:2181或者使用kafka-manager集群管理工具删除注意：如果kafka启动之前没有配置delete.topic.enable=true，topic只会标记为marked

2023-07-01 22:28:58 13566

原创如何删除kafka消费组

如何删除Kafka消费组Kafka消费组可以通过Kafka客户端的命令行方式连接Kafka实例完成删除。查询消费组kafka-consumer-groups.sh --bootstrap-server {kafka连接地址} --list[root@zk-server-1 bin]# ./kafka-consumer-groups.sh --bootstrap-server 172.31.1.245:9091,172.31.1.86:9091,172.31.1.128:9091 --listNot

2023-07-01 22:28:37 2236

原创 hdfs配置文件的作用 core-site.xml hadoop-env.sh hdfs-site.xml yarn-site.xml mapred-site.xml

Hadoop配置文件的作用 core-site.xml hadoop-env.sh hdfs-site.xml yarn-site.xml mapred-site.xml1.hadoop-env.sh由于Hadoop是java进程，所以需要添加jdk# The java implementation to use.export JAVA_HOME=/usr/local/jdk1.8.0_171//加入JAVA_HOME2.core-site.xml2.1指定namenode的位置2.2had

2023-07-01 22:28:01 314

原创 ES安装教程详解

ES安装教程详解转载：https://blog.csdn.net/he19970408/article/details/107359861/文章目录0. 安装前准备2. 在官方网站下载ES3. 安装JDK(必须JDK1.8+)4. 配置环境变量5. 重载系统配置6. 安装elasticsearche7. elasticsearche的目录结构8. 运行es服务9. 不能以root用户身份启动10. 登录es用户启动ES11. 测试ES是否启动成功12. 开启ES远程访问13.

2023-07-01 22:27:00 1802

原创 Hive之建表的三种方式

执行的结果是table1 的表与table2的表结构是一致的，但是table1表中的数据为空；Hive建表方式统计了常见的三种建表，分别为直接命令行建表，like建表和as建表。将查询的table2表中id=1的结果插入到table1;或者使用as建表，但表结构会与原表不一致，具体往下看；#原理：直接查询表结果插入到一张新表，没有复制表结构；#原理：复制表结构，但不复制数据；

2023-07-01 19:33:59 1437

原创 hive外部表和内部表

创建内部表时，会将数据移动到hive指向的路径，并且由hive来管理数据的生命周期。当 Hive 应该管理表的生命周期，或者在生成临时表时，使用内部表。删除一个内部表或分区，则会删除与该表或分区关联的数据和元数据。创建外部表时，只是记录数据所在的路径，不对数据位置做改变。主要分为三方面，load、drop 和使用场景。删除一个外部表，只是删除元数据，数据不会删除。一般源数据使用外部表。

2023-07-01 18:33:16 97

原创 Hive分区、分桶表

1、分区：分区是指按照数据表的某列或某些列分为多个区，区从形式上可以理解为文件夹，比如我们要收集某个大型网站的日志数据，一个网站每天的日志数据存在同一张表上，由于每天会生成大量的日志，导致数据表的内容巨大，在查询时进行全表扫描耗费的资源非常多。分区的目的就是提高查询效率，查询分区数据的方式就是指定分区名，指定分区名之后就不再全表扫描，直接从指定分区中查询，从hdfs的角度看就是从相应的文件系统中去查找特定的数据。分桶的信息在hdfs上看不到相关的文件，但是可以查询到分桶中的数据，说明确实分桶了。

2023-07-01 18:18:49 68

原创 hive导入导出数据汇总

注意：import只能导入export命令从Hive到出去的数据，且目标表可以为空，如果已经创建则必须是空表。建hive外表的方式location导入数据（注意建表时分隔符）2，dfs导出方式（注意hive建表必须时textfile格式）hive shell执行sql文件，结果存储到文件。具体查看sqoop导入方式；具体查看sqoop导出方式；一，hive导入数据方式。二，hive导出数据方式。1，insert导出方式。#类似于hdfs导出方式。5，sqoop导出（略）import导入方式。

2023-07-01 17:51:27 482

原创 spark spark-sql提交方式及参数优化建议

任务申请的总core数为executor个数*单个executor的core数，如：申请4个executor，每个executor申请2个core，则此任务申请的总core数为8。此参数一般设置为任务申请的总core数的2-4倍，如：申请100个executor，每个executor申请2个core，那么总core数为200，此参数设置的合理范围是400-800。一直以来，Spark只能设置固定的并行度（参考4），在大促期间，数据量激增，每个task处理的数量增加，很容易出现oom的情况。

2023-07-01 09:59:21 2601

原创 spark中spark-submit提交样例及参数说明

当我们使用像Yarn这样的集群管理器运行spark应用程序时，会有几个守护进程在后台运行，如NameNode，Secondary NameNode，DataNode，JobTracker和TaskTracker等。这是一种很有前景的部署模式。5.如果资源不变，你的RDD只有2个分区，那么同一时刻只有2个task运行，其余18个核空转，造成资源浪费。上面涉及到Spark的许多部署模式，究竟哪种模式好这个很难说，需要根据你的需求，如果你只是测试Spark Application，你可以选择local模式。

2023-07-01 09:08:02 4317

Linux常用操作命令

python爬虫技术学习样例

python爬虫样例，适用任何场景页面

vue面试题，提前熟悉，提前准备

mysql面试题，提前熟悉，提前准备，备战面试

Java常见的面试题，提前准备，提前熟悉，面试亮剑

apache httpd rpm包，支持rpm一键安装维护

空空如也