四月一日z-CSDN博客

原创 PyCharm使用GitLab，Git常用命令，Git提交规范

git reset 或者git reset . (git add后撤销：“file”是撤销某个文件，“.”是撤销暂存区的全部文件)git branch -m branch_0.1 branch_1.0 将branch_0.1重命名为branch_1.0。git commit -a -a是代表add，把所有的change加到git index里然后再commit。git diff --cached 或 $ git diff --staged 查看尚未提交的更新。

2023-11-29 18:04:10 1822 1

原创数据同步工具Sqoop，DataX，Maxwell区别

这些工具之间的主要区别在于它们的应用场景和支持的数据源和目的地类型。Sqoop主要用于Hadoop与传统关系型数据库之间的数据传输，DataX是一个通用的数据传输工具，支持多种数据源和目的地的数据传输，而Maxwell主要用于实时捕获和传输MySQL数据库的变更操作。

2023-10-25 16:25:29 828 1

原创 Spark启动报JAVA_HOME is not set

报错如下：解决：vim/opt/software/spark/spark-3.0.0/sbin/spark-config.sh添加java环境变量#JAVA_HOMEexport JAVA_HOME=/usr/local/java/jdk1.8export PATH=$JAVA_HOME/bin:$PATH重新启动sparkcd /opt/software/spark/spark-3.0.0/sbin./start-all.sh

2023-09-18 15:52:42 256

原创 DBeaver连接Hive建表时报错：Storage schema reading not supported

重新启动hiverserver2，重新连接DBeaver。

2023-09-14 17:52:18 455 1

原创 Hive3.1.2 on Spark 3.0.0报错

解决：在/opt/software/hadoop/hadoop-3.1.3/etc/hadoop目录下创建resource-types.xml文件。1、到spark的/opt/software/spark/spark-3.0.0/conf目录下修改配置文件。在/opt/software/spark/spark-3.0.0/sbin路径下启动spark。hive on spark环境下在hive中创建表成功，但是执行插入数据语句报错。3、在hive/conf/hive-site.xml中增加。

2023-09-13 20:47:58 270

原创 namenode重新格式化、hive重新初始化

需要对namenode进行重新格式化时，需要把每一台服务器/opt/software/hadoop/hdfs下面的目录：name/data/tmp/journalnode都清空。启动zookeeper。

2023-09-12 11:07:52 440

原创启动ZKFC时报错ERROR org.apache.hadoop.ha.ZKFailoverController: Unable to start failover controller. Paren

执行以下命令之前需要先把所有机器的zookeeper启动起来。按照报错日志提示在该机器上执行命令，

2023-08-31 18:41:55 665 1

原创 Maxwell启动历史数据全量maxwell-bootstrap报错No appropriate protocol (protocol is disabled or cipher suites are

删除jdk.tls.disabledAlgorithms后面的TLSv1和TLSv1.1，然后保存退出。重新启动maxwell-bootstrap之前需要先启动maxwell，不然会报数据阻塞，如下所示。启动maxwell-bootstrap。

2023-08-30 22:45:02 490 1

原创 Scala

Scala基础知识点，Scala和Java的区别

2023-08-28 11:17:15 153 1

原创 flume

Flume 是一个可靠、可扩展且分布式的日志收集和聚合系统。它被广泛用于大规模数据流的采集、传输和存储。Flume 提供了一种简单的方式来收集和移动大量的日志数据，使其能够方便地进入数据处理和分析系统。

2023-08-27 15:05:53 113 1

原创启动historyserver日志服务的时候报错UnknownHostException: mycluster

或者：mapred --daemon start historyserver。在配置好历史服务以后，检查了几遍都没错，就是一直报错。原因：我开始用的启动命令是。后面换一种命令就成功了。

2023-08-23 18:06:36 306 1

原创 Ubuntu搭建Hadoop3.X分布式和高可用集群，一步步深入

本文介绍了在Ubuntu操作系统上搭建Hadoop 3.x分布式和高可用环境的步骤。首先解释了Hadoop 3.x的架构和核心组件。然后，详细讲解了如何配置Ubuntu网络和主机名，安装Java和SSH，并生成SSH密钥。接下来，引导用户通过安装和配置Hadoop的各个组件（如HDFS、YARN和MapReduce）来搭建分布式集群。通过本文的指导，读者将能够快速地在Ubuntu上搭建Hadoop 3.x分布式和高可用环境。

2023-08-22 19:00:58 1986 1

原创 Ubuntu安装MySQL

CREATE USER '新用户名'@'localhost' IDENTIFIED WITH mysql_native_password BY '新密码';ALTER USER 'root'@'localhost' IDENTIFIED WITH mysql_native_password BY '新密码';1. 在安装MySQL之前，应该始终确保apt-get包管理器是最新的版本。安装过程中会提示设置root用户的密码，请记住这个密码，因为会在之后使用它来登录到MySQL服务器。

2023-08-22 18:41:16 676

原创安装zookeeper启动时报错zkServer.sh: command not found

我是四台服务器，第一台zookeeper配置好，环境变量配置好然后使用scp命令分发到其它三台的，然后启动时发现第一台zkServer.sh: command not found，而其它三台正常启动。使用第一个命令发现没有，然后四台都使用第二个命令发现就第一台没有zookeeper的环境变量，但是我查看环境变量里面是存在的，不知为什么，反正是回车换了一行然后保存退出的。3. 路径错误：如果通过上述命令找到了`zkServer.sh`，请确保在运行命令时使用了正确的路径。

2023-08-21 17:29:58 2158

原创 Scrapy爬虫框架

scrapy框架，爬取b站

2023-08-02 20:01:34 616

原创 Spark实现WordCount

Spark实现WordCount

2023-07-12 15:47:13 354

qq_53663722的博客