dataCompare 开源项目使用教程
dataCompare 项目地址: https://gitcode.com/gh_mirrors/da/dataCompare
1、项目介绍
dataCompare
是一个大数据比较和数据分析平台,支持低代码的数据比较和数据分析。它能够自动配置数据比较任务,避免频繁编写SQL处理数据。主要功能包括:
- 数据比较:支持Hive表数据比较、MySQL和Doris数据比较。
- 数据分析:支持低代码配置数据分析任务,包括主键、枚举值、空值检测等。
2、项目快速启动
环境准备
- Java JDK 8
- MySQL 5.7.36
- Hive 环境(可选,如果需要进行Hive数据比较)
安装步骤
-
克隆项目
git clone https://github.com/zhugezifang/dataCompare.git cd dataCompare
-
数据库配置
在MySQL中运行项目根目录下的SQL文件,创建数据库和表。
source /path/to/dataCompare/sql/init.sql
-
构建项目
使用Maven构建项目:
mvn clean package
-
配置数据库连接
编辑
application.yml
文件,配置数据库连接信息。spring: datasource: url: jdbc:mysql://localhost:3306/dataCompare username: root password: yourpassword
-
运行项目
使用以下命令运行项目:
java -jar -Dspring.config.location=application.yml target/dataCompare.jar
-
访问系统
打开浏览器,访问
http://127.0.0.1/
,使用默认用户名admin
和密码admin123
登录。
3、应用案例和最佳实践
案例1:Hive数据比较
假设有两个Hive表table1
和table2
,需要比较它们的数据一致性。
-
配置数据源
在系统中配置Hive数据源,连接到Hive服务器。
-
创建比较任务
创建一个新的比较任务,选择
table1
和table2
作为比较对象。 -
执行比较
执行比较任务,系统会自动生成比较结果,并发送邮件报警。
案例2:MySQL数据分析
假设有一个MySQL表user_info
,需要进行数据分析,检测主键和空值。
-
配置数据源
在系统中配置MySQL数据源,连接到MySQL服务器。
-
创建分析任务
创建一个新的数据分析任务,选择
user_info
表,配置主键和空值检测。 -
执行分析
执行分析任务,系统会自动生成分析结果,并展示在系统界面中。
4、典型生态项目
- Apache Hive:用于大数据存储和查询。
- Apache Spark:用于大数据处理和分析。
- MySQL:用于关系型数据库管理。
- Doris:用于实时分析数据库。
这些项目与dataCompare
结合使用,可以构建完整的大数据处理和分析平台。
dataCompare 项目地址: https://gitcode.com/gh_mirrors/da/dataCompare