一、如果没有安装过datahub的mysql插件,先安装(mysql源官方文档)
pip3 install 'acryl-datahub[mysql]'
二、使用ui Ingestion
可以先配置变量,加密账号密码,避免配置文件中明文存储
2.1 访问localhost:9002/ingestion,点击创建新的数据源
2.2 选择数据源
2.3. 修改配置文件内容
2.4 设置定时调度刷新元数据
2.5 设置当前数据源名称
完成后刷新页面,可以看到刚刚设置的数据源,可以点击执行一次
第一次刷云数据会自动安装对应插件,所以有可能非常慢
hive和mysql配置类似,就不重复了
配置执行后,就可以在首页看到元数据信息了
二、使用CLI Ingestion
创建一个配置文件来需要提取的数据源
vi recipe.yml
source:
type: "mysql"
config:
host_port: "localhost:3306"
database: "test"
username: "${MYSQL_USERNAME}"
password: "${MYSQL_PASSWORD}"
sink:
type: datahub-rest
config:
server: "http://xxxx:8080"
执行提取命令,将元数据提取到datahub
datahub ingest -c recipe.yml