程序终结者-CSDN博客

原创理解 Spring Cloud Config：配置文件发现与命名规范

本文档旨在帮助你掌握 Spring Cloud Config 支持的配置文件类型，理解 Spring 官方的命名规范，探索配置客户端和服务器的发现逻辑，并学习如何通过 Eureka 服务发现集成配置管理。示例，讲解 Spring Cloud Config 的配置文件类型、官方命名规范以及配置发现逻辑，帮助你理解如何在微服务架构中高效管理配置。）区分环境特定的配置，例如开发和生产环境的支付网关地址。机制集成本地和远程配置，而属性优先级规则（本地 > 远程，应用专属 > 共享）确保配置的正确应用。

2025-06-10 20:50:34 799

原创 ElasticSearch-7.17.24设置密码及CA证书

通过以上步骤，已成功为 Elasticsearch 集群配置了 SSL/TLS 加密与用户密码认证，在浏览器进入时会提示你输入账号和密码。将ElasticSearch集群从开源版本升级为具备安全认证功能的版本（如X-Pack），为集群配置SSL/TLS加密并启用安全认证。文件生成时，我设置了密码，下面的配置将以带密码的形式给出，请注意。此时重启后，再发送请求会让你输入密码，下面我们进行密码设置。你可以为每个用户设置自己的密码，或者全部设置为相同密码。同样，系统会提示你输入 truststore 的密码。

2024-10-20 17:14:29 1888

原创 ElasticSearch-7.17.10集群升级至ElasticSearch-7.17.24

在升级 Elasticsearch 集群之前执行这个命令的原因，主要是为了 **保证数据和分片的稳定性**，防止在节点重新启动或重启过程中发生不必要的分片重新分配，避免集群在升级过程中的压力。命令用于修改 Elasticsearch 集群的路由分配设置，在执行升级操作之前，需要暂时限制分片的重新分配，以保证集群的稳定性。如果不清理这个设置，集群将一直只分配主分片，副本分片不会被分配，导致数据冗余性缺失。来进行，先下线第一个节点，完成第一个节点升级后，再进行第二个节点，最后升级主节点。

2024-10-20 17:09:52 1716

原创【九】Hadoop3.3.4HA高可用配置

在 Hadoop 生态系统中，NameNode 是文件系统的中心管理器，负责管理 HDFS 的元数据。与此同时，它还会创建新的检查点（checkpoint），以减少系统重启时的恢复时间。QJM 是管理 JournalNode 的组件，确保在集群中至少一半以上的 JournalNode 写入成功后，操作才被认为是持久化成功的。当前高可用在以下三台节点组成的hadoop3.3.4集群中进行配置，当前已经完成了集群安装，hdfs的验证，并且。基于高可用的配置，主要用于配置 Hadoop 的核心设置，这里重点是。

2024-08-04 17:50:02 1157

原创【八】Zookeeper3.7.1集成Hadoop3.3.4集群安装

它提供了一种简单的接口来访问存储在其文件系统中的数据，同时为复杂的分布式系统提供了高可用性和一致性保障。ZooKeeper 使用的 ZAB 协议（ZooKeeper Atomic Broadcast）是一种基于投票的协议，确保了事务的顺序一致性和数据的复制。ZooKeeper 常用于分布式系统中的服务注册和发现、分布式锁、配置管理、分布式消息队列等。总之，ZooKeeper 通过提供可靠的分布式协调机制和数据一致性保障，为分布式系统的构建和管理提供了强有力的支持。2 . 在每个节点的数据目录中创建。

2024-08-04 17:40:09 1136

原创【七】Hadoop3.3.4基于ubuntu24的分布式集群安装

本次安装实验基于苹果m2芯片的mac系统，使用vmware fusion搭建三台ubuntu24分布式虚拟机，确保在三台机器上安装了Java jdk8，并配置了免密码登录，网络互通，防火墙关闭，授时服务器已经同步。访问apche官网源，下载3.3.4版本，我们用二进制通用版即可，因为hadoop运行在java环境，跨平台性使得无需编译arm架构版本。至此，Hadoop的安装完成，包括hdfs文件存储系统，mapreduce计算框架，yarn资源管理系统均能正常、稳定使用。

2024-07-27 16:32:27 1293

原创【六】集群管理工具

查看java程序的运行状态是最常用的指令。首先在ubuntu1输入该find命令，查找jps位置，需要首先完成java jdk的安装和配置。回显如下，jps的位置确定了。

2024-07-27 16:28:56 366

原创【五】MySql8基于m2芯片arm架构Ubuntu24虚拟机安装

通过以上步骤，已经在 Ubuntu 上成功安装了 MySQL 8.0。接下来，可以开始在远程工具中访问数据库。

2024-07-26 20:42:13 1700

原创【四】jdk8基于m2芯片arm架构Ubuntu24虚拟机下载与安装

（jdk-8u411-linux-aarch64.tar.gz），因为它更加通用，可以在任何支持 ARM64 的 Linux 系统上安装。这里写一个从本地mac系统向虚拟机ubuntu1传输文件的脚本：t.sh。该脚本会将本地文件传输到ubuntu1的guoyachao用户家目录下。找到最下面Java SE 看到java 8，下载使用。中的步骤，待全部安装完成，显示java版本成功即可。如无特别说明，本文均在root权限下安装。将jdk文件发送到节点2和节点3上。

2024-07-26 20:34:47 1054

原创【三】ubuntu24虚拟机集群配置免密登陆

通过上述步骤，成功为三台Ubuntu虚拟机配置域名映射和免密登录。这样，可以通过域名而不是IP地址访问每台机器，并且在每台机器之间进行免密SSH登录。当前三台ubuntu节点已经完成了虚拟机在vmware fusion中的部署，网络经过测试均已经互通，并且开机使用远程连接进行访问。在提示时按Enter键，使用默认文件路径，不设置密码短语。在每台机器上生成SSH密钥对，并将公钥分发到其他机器。这样，每台机器都能通过域名访问其他机器。上，运行以下命令将公钥分发到。实际上，这个选项应该出现在。

2024-07-05 17:59:49 2007

原创【二】Ubuntu24虚拟机在Mac OS的VMware Fusion下无法联网问题

网络地址转换 (NAT)是一种允许多台设备通过单一的公共IP地址访问互联网的技术。在 NAT 中，有一个专门的设备或软件，通常称为NAT 网关，负责将内部网络（私有IP地址）的流量转换为公共IP地址。将内部私有IP地址转换为公共IP地址。将内部设备的端口号与公共IP地址的端口号进行映射，以便正确路由流量。NAT 网关是用于将私有网络的流量转换为公共网络流量的关键设备。正确配置网关地址确保网络流量能够通过NAT网关正确路由到外部网络。

2024-07-05 17:56:52 2042

原创【一】m2芯片的mac中安装ubuntu24虚拟机集群

修改完成后应用网络，使其生效，报这个警告是因为用了过时的语法，没关系。执行完应用新网络ip的命令后，当前终端窗口由于网络发生了变化，所以就会连接中断，需要重新连接新的ip。至此，ubuntu2已经复制完成，ubuntu1可以ping通ubuntu2的地址，同时也要确保ubuntu2可以ping通ubuntu1。这里对网络，网关，域名解析进行配置，原ip为172.16.167.131，这里修改为172.16.167.132。输入名字，你的名字和username可以写一样的，就是登陆时候的用户名，这里配置为。

2024-07-05 17:52:13 2045

原创 Samba 服务器的搭建以及windows server 2008客户端的使用实验报告

通过本次实验，我深入了解了在 Linux 和 Windows Server 环境中配置 Samba 服务器以及实现跨平台文件共享的过程，进一步掌握了网络配置的基本原理和操作技能。首先，我在虚拟机中安装了 CentOS 作为 Samba 服务器，并配置了静态 IP 地址，同时在 Windows Server 2008 R2 中也配置了相应的静态 IP 地址。在编辑 Samba 配置文件时，通过设置和添加。

2024-06-17 12:19:05 1214

原创 2022软件设计师上半年下午题六

（3）根据Memento类可知，通过getState()方法拿到state参数，所以调用Memento下的getState()方法；（1） public后出现的Memento是个返回类型，所以要去前段代码找Memento；（1）在问题（3）中，只有函数体，没有返回值类型、名称、参数及类型，需阅读函数体；（3） Memento是返回类型，所以要返回Memento类型的对象；（5）根据前段代码找到的Memento类，在构造方法中，需要传参数；（1）由问题（4）得知，需要判断返回类型、方法名、参数及类型；

2024-04-07 18:03:30 641

原创基于java和PowerShell使用SHA-256和BASE64加密字符串的进制位计算差异

Java 示例中的【结果1】使用的是标准的 Java 加密库中的 MessageDigest 类来计算 SHA-256 哈希值，然后使用 BASE64Encoder 类将二进制哈希值转换为 BASE64 编码的字符串。【结果2】的BASE64计算输出则与使用PowerShell计算相同，因为在PowerShell中使用的是命令来计算文件的 SHA-256 哈希值，该输出对应java【结果2】中十六进制SHA-256的计算。

2024-03-06 18:07:32 1219

原创 JanusGraph图数据库的应用以及知识图谱技术介绍

JanusGraph介绍JanusGraph 是一个开源的、分布式的、基于属性图的数据库，由 Apache TinkerPop 社区开发。它支持 Apache Cassandra 和 Apache HBase 作为存储后端，并提供原生支持 Gremlin 图遍历语言。JanusGraph 的主要优势支持非常大的图。JanusGraph 图可以随着集群中机器的数量而扩展。支持非常多的并发事务和操作性图处理。JanusGraph 的事务容量随着集群中机器的数量而扩展，并能够在毫秒内回答复杂的遍历查询。

2024-01-22 19:13:26 1884

原创基于华为MRS3.2.0实时Flink消费Kafka落盘至HDFS的Hive外部表的调度方案

该需求为实时接收对手Topic，并进行消费落盘至Hive。在具体的实施中，基于华为MRS 3.2.0安全模式带kerberos认证的Kafka2.4、Flink1.15、Hadoop3.3.1、Hive3.1，调度平台为开源dolphinscheduler。本需求的完成全部参考华为官方MRS3.2.0开发文档，相关章节是普通版的安全模式。

2024-01-17 18:32:20 1814

原创实战Flink Java api消费kafka实时数据落盘HDFS

在Java api中，使用flink本地模式，消费kafka主题，并直接将数据存入hdfs中。

2024-01-07 22:30:09 2388 3

原创接收Kafka数据并消费至Hive表

将Kafka中的数据消费到Hive可以通过以下简单而稳定的步骤来实现。这里假设的数据是以字符串格式存储在Kafka中的。创建Hive表：编写Kafka消费者脚本：Hive JDBC客户端：运行消费者脚本：这是一个基本的、简单的方式来实现从Kafka到Hive的数据流。这里的示例假设数据是以逗号分隔的字符串，实际上，需要根据数据格式进行相应的解析。这是一个简化的示例，真实场景中可能需要更多的配置和优化。确保环境中有Hive和Kafka，并根据实际情况调整配置。使用Flink处理Kafka数据

2023-12-31 22:50:01 4792 3

原创 Hive表加工为知识图谱实体关系表标准化流程

加工原则是从Hive的原数据表中抽取出导图所用的实体和关系字段，包括重要的属性描述字段，最后导入图数据库。

2023-12-31 13:42:02 1363

原创错行乱行文本处理方法正则及命令

例如，如果CSV文件在Windows环境下编辑过，可能包含回车符，使用这个命令可以将其删除，得到一个没有行尾回车符的文件。: 这是一个替换命令，使用正则表达式匹配每个逗号后面是17位数字或15位数字的部分，并在匹配到的部分之前插入换行符。: 这是一个替换命令，使用正则表达式匹配每个逗号后面是8位数字的部分，并在匹配到的部分之后插入换行符。后面是17位数字或15位数字（带换行符），然后在匹配到的部分之前插入换行符，用于提取身份证号。中匹配到逗号后面是8位数字的部分，然后在匹配到的部分之后插入换行符。

2023-12-26 23:12:50 1031

原创 ElasticSearch5.6.2常用transport client Java API操作代码实例

ElasticSearch5.6.2常用transport client Java API操作代码实例。

2023-12-17 16:01:51 613

原创使用sha512对上传到linux服务器的文件进行校验

SHA-512（安全散列算法 512 位）是一种密码散列函数，属于SHA-2家族的一部分。它是由美国国家安全局（NSA）设计的一种安全散列算法，用于产生数字摘要，通常用于数据完整性验证、数字签名等安全应用。SHA-512算法会接受输入数据，并生成一个固定长度为512位（64字节）的输出，通常以十六进制表示。SHA-512常用于验证文件完整性、密码存储以及数字签名等领域。

2023-12-17 15:45:35 1024

原创 Hbase2.5.5分布式部署安装记录

从官网下载二进制安装包，上传至linux，安装并分发三台集群，用作大数据测试实验，前置的Hadoop以及jdk安装将省略。安装前请确保三台集群节点已经配置免密登录，域名映射，以及关闭防火墙。至此，完成Hbase的分布式部署安装及测试。

2023-12-11 22:39:19 1022

转载渣男绿茶语录生成器API及用法

该网站作者希望大家能够学会说话的艺术，创造美丽世界，可以切换渣男风格api和绿茶风格api。

2023-12-10 18:42:55 710

原创 MySQL视图介绍与实验练习

视图是一种虚拟表，其内容由一个查询定义。它提供了一种将复杂查询逻辑封装成可重用的结构的方式。

2023-12-08 21:20:28 1153

原创我的创作纪念日

总的来说，创作不仅为我个人带来了关注和认可，也为我技术上的成长和职业发展打下了坚实的基础。在创作的过程中，我经常收获了许多令人鼓舞的成果，这些成果不仅是对个人努力的认可，也是对技术交流和分享的积极推动。这些互动不仅提供了对我工作的肯定，还为我提供了改进的建议和额外的见解，推动了我的学习和成长。在创作的过程中，我经常收获了许多令人鼓舞的成果，这些成果不仅是对个人努力的认可，也是对技术交流和分享的积极推动。这些互动不仅提供了对我工作的肯定，还为我提供了改进的建议和额外的见解，推动了我的学习和成长。

2023-12-08 20:36:35 887

原创 Hive中parquet压缩格式分区表的跨集群迁移记录

从华为A集群中将我们的数据迁移到华为B集群，其中数据经过华为集群管理机local跳转。数据样例：分区表外部表 .parquet压缩

2023-12-01 13:08:44 717

原创 Python环境中HanLP安装与使用

根据github最新官方文档整理。

2023-11-13 19:29:23 2687

原创 wiki.js一个开源知识库系统

Node.js：wiki.js需要Node.js版本16.0.0或更高。Web服务器：wiki.js需要一个Web服务器来托管wiki页面。常用的Web服务器包括Apache、Nginx和IIS。数据库：wiki.js支持多种数据库，包括PostgreSQL、MySQL、MariaDB和SQLite。

2023-11-13 16:38:42 3528

原创 GalaxyBase分布式集群关闭后启动

查看所有的docker容器，这里应该能找到三个镜像，分别是browser、graph、admin，他们的状态应该是。这将列出所有正在运行的容器，包括容器的详细信息，如容器ID、镜像名称、创建时间、端口映射等。GalaxyBase的启动操作主要都是docker，对于没有用过容器的人来说，比较陌生。这是说明本地没有服务在部署，为什么是空的，因为我们的部署是分布式，不是本地式。文档似乎仅说明了本地模式的启动，并没有找到集群模式，所以我的参考有误。这将列出所有容器，无论它们是否正在运行，包括已停止的容器。

2023-10-24 19:25:00 171

原创 Spark集群中一个Worker启动失败的排错记录

集群下电停机后再次启动时，发现其中一台节点的worker启动失败。

2023-10-24 19:14:49 1646 1

原创 Hive跨集群数据迁移过程

本次迁移数据100G，15亿条，数据流转方向从集群A经过跳转机到集群B，通过HDFS拉取和重新建表导入的方式完成数据库迁移。

2023-10-18 22:05:54 916

原创使用Python创建faker实例生成csv大数据测试文件并导入Hive数仓

解决思路是通过将整表的数据查询出，插入到另一个新表中，而后删除旧的表，该方法如果在生产环境中使用应考虑机器性能和存储情况。本案例由于使用python生成文件，只有第一个csv文件有列名，其余csv没有列名，我们稍后单独处理这一个首行。这段代码使用Faker库生成模拟的个人信息数据，每个CSV文件包含一定数量的行数据，数据字段包括。这段Python代码用于生成模拟的个人信息数据，并将数据保存为CSV文件。在每个文件中，生成随机的个人信息数据，并将其写入CSV文件。所有数据生成后，打印生成的总行数。

2023-10-15 18:29:26 1284

原创 Hadoop-2.5.2平台环境搭建遇到的问题

这两天我配置了mysql和hive，本文记录遇到的问题。

2023-10-09 22:34:44 1197

原创 Hive中Join优化的几种算法

该算法适用于大表关联小表，第一个 Map Job 启动本地任务读取小表中的数据，首先将其制作为 Hash Table，再将其上传到分布式缓存（HDFS）中，第二个 Map Job 将小表读取至内存，并且扫描大表，在 Map Job 中完成两表的关联，因此可以不走 Reduce。Bucket Map Join 的条件是要求参与 Join 的表都是分桶表，关联 key 为分桶字段，且其中一张表的分桶数量是另一张表分桶数量的整数倍，这是为了保证每个分桶都有对应的关联桶，避免奇数桶找不到对应关系。

2023-09-08 16:40:54 782

转载【转载】Kafka的消费者分区策略

如果消费组内，消费者订阅的Topic列表是相同的（每个消费者都订阅了相同的Topic），那么分配结果是尽量均衡的（消费者之间分配到的分区数的差值不会超过1）。这种分配方式明显的一个问题是随着消费者订阅的Topic的数量的增加，不均衡的问题会越来越严重，比如上图中4个分区3个消费者的场景，C0会多分配一个分区。StickyAssignor分区分配算法，目的是在执行一次新的分配时，能在上一次分配的结果的基础上，尽量少的调整分区分配的变动，节省因分区分配变化带来的开销。分区的分配尽量的均衡。

2023-08-21 16:16:40 641

原创 Spark 为什么比 MapReduce 快100倍？

通常我们认为 Spark 引擎是基于内存进行计算，无论如何，速度都是比 MapReduce 快，因为 MapReduce 需要频繁 Shuffle。在 Spark 的官网早期介绍中，也有过一张 Spark 比 Hadoop 计算速度快100倍的宣传，虽然它似乎违反了我们的广告法。本文不讨论技术源码，从内存计算、数据共享、任务调度优化多种角度，总结 Spark 快的真因。

2023-08-19 17:17:07 707

原创基于MapReduce的Hive数据倾斜场景以及调优方案

这在数据倾斜的情况下可能会有一定的帮助，因为数据倾斜往往会导致部分Reducer需要处理较多的数据，通过减小传输数据量，可以加快数据的传输速度，从而在一定程度上减轻了数据倾斜带来的影响。分桶表的优势在于，通过合理设置分桶数量和选择适当的分桶列，可以使数据更加均匀地分布在不同的分桶中，从而减轻数据倾斜的影响。Hive数据倾斜是指在数据分布中存在不均匀的情况，业务问题或者业务数据本身的问题，某些数据比较集中，导致某些节点或分区上的数据量远远大于其他节点或分区，从而影响查询性能和任务的均衡执行，尤其是join。

2023-08-13 20:40:57 1458

原创 CDH6.3应知应会

Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具，使得安装集群从几天的时间缩短在几个小时内，运维人员从数十人降低到几人以内，极大的提高集群管理的效率。CDH 是 Cloudera 提供的一套基于 Hadoop 生态的大数据解决方案。它包括 Hadoop 生态的核心组件，如 HDFS、YARN、Hive、HBase 等，并提供了集成的管理、监控、安全性等功能，使大数据平台的构建和管理更加便捷。

2023-08-13 15:59:03 1320

elasticsearch6.6.0 aarch64 arm

sql-geoinfo-chn

关于ARM架构的大数据集群安装Hive的方案

关于spark在Windows环境下的配置启动问题

能不能告诉我你们的大数据开发环境