kedro-mlflow 项目教程

kedro-mlflow 项目教程

kedro-mlflowA kedro-plugin for integration of mlflow capabilities inside kedro projects (especially machine learning model versioning and packaging)项目地址:https://gitcode.com/gh_mirrors/ke/kedro-mlflow

1. 项目的目录结构及介绍

kedro-mlflow/
├── conf/
│   ├── base/
│   │   ├── catalog.yml
│   │   ├── credentials.yml
│   │   ├── logging.yml
│   │   └── mlflow.yml
│   └── local/
│       ├── catalog.yml
│       ├── credentials.yml
│       └── mlflow.yml
├── data/
│   ├── 01_raw/
│   ├── 02_intermediate/
│   ├── 03_primary/
│   ├── 04_feature/
│   ├── 05_model_input/
│   ├── 06_models/
│   ├── 07_model_output/
│   └── 08_reporting/
├── docs/
├── logs/
├── notebooks/
├── src/
│   ├── kedro_mlflow/
│   │   ├── hooks.py
│   │   ├── pipeline.py
│   │   └── __init__.py
│   └── tests/
├── .gitignore
├── README.md
├── requirements.txt
└── setup.py

目录结构介绍

  • conf/: 配置文件目录,包含基础配置和本地配置。
    • base/: 基础配置文件,如数据目录、日志配置、MLflow 配置等。
    • local/: 本地配置文件,通常包含敏感信息如凭证。
  • data/: 数据目录,按照数据处理的阶段划分。
  • docs/: 文档目录,存放项目文档。
  • logs/: 日志目录,存放运行日志。
  • notebooks/: Jupyter 笔记本目录,用于数据探索和实验。
  • src/: 源代码目录,包含项目的主要代码和测试代码。
    • kedro_mlflow/: 项目主要代码。
    • tests/: 测试代码。
  • .gitignore: Git 忽略文件配置。
  • README.md: 项目说明文档。
  • requirements.txt: 项目依赖文件。
  • setup.py: 项目安装脚本。

2. 项目的启动文件介绍

setup.py

setup.py 是 Python 项目的标准安装脚本,用于定义项目的元数据和依赖关系。通过运行 pip install -e . 可以安装项目及其依赖。

from setuptools import setup, find_packages

setup(
    name="kedro-mlflow",
    version="0.1.0",
    description="A Kedro plugin for lightweight and portable integration of MLflow capabilities",
    long_description=open("README.md").read(),
    long_description_content_type="text/markdown",
    author="Your Name",
    author_email="your.email@example.com",
    url="https://github.com/Galileo-Galilei/kedro-mlflow",
    packages=find_packages(),
    install_requires=[
        "kedro>=0.16.0",
        "mlflow>=1.0.0",
    ],
    classifiers=[
        "Development Status :: 3 - Alpha",
        "Intended Audience :: Developers",
        "License :: OSI Approved :: Apache Software License",
        "Programming Language :: Python :: 3",
        "Programming Language :: Python :: 3.6",
        "Programming Language :: Python :: 3.7",
        "Programming Language :: Python :: 3.8",
    ],
)

3. 项目的配置文件介绍

conf/base/mlflow.yml

mlflow.yml 是 MLflow 的配置文件,用于定义 MLflow 跟踪服务器的 URL 和其他相关配置。

mlflow:
  tracking:
    uri: "http://localhost:5000"
    experiment:
      name: "default"

conf/base/catalog.yml

catalog.yml 是 Kedro 的数据目录配置文件,用于定义数据集的存储和加载方式。

example_dataset:
  type: pandas.CSVDataSet
  filepath: data/01_raw/example.csv
  load_args:
    sep: ","

`conf/base/logging

kedro-mlflowA kedro-plugin for integration of mlflow capabilities inside kedro projects (especially machine learning model versioning and packaging)项目地址:https://gitcode.com/gh_mirrors/ke/kedro-mlflow

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
kedro-script.py是一个Python文件,其中包含了对Kedro项目进行命令行操作的脚本。 Kedro是一个开源的数据工程框架,能够帮助我们管理和组织数据科学项目kedro-script.py提供了一些命令行接口,让我们能够方便地进行项目的开发和管理。 kedro-script.py脚本的功能包括但不限于以下几个方面: 1. 项目初始化:我们可以使用kedro init命令来初始化一个新的Kedro项目,该命令将会生成项目的基础结构、配置文件和初始代码等。 2. 数据集管理:kedro-script.py允许我们通过命令行添加、删除和管理数据集。例如,通过kedro dataset create命令可以创建一个新的数据集,kedro dataset delete命令可以删除指定的数据集。 3. 流水线操作:通过kedro run命令,我们可以运行一个或多个定义在Kedro项目中的流水线。流水线是由一系列任务组成的,这些任务在数据处理过程中按照一定的顺序执行。 4. 依赖关系可视化:kedro-script.py提供了kedro viz命令,可以生成数据管道的依赖图。这个依赖图能够帮助我们更好地了解数据管道的结构和每个节点之间的依赖关系。 总的来说,kedro-script.py是一个非常有用的工具,它简化了Kedro项目的开发和管理流程,使我们能够更加高效地处理数据科学项目。通过使用kedro-script.py,我们可以更加自由地操作数据集、运行流水线,并可视化整个数据管道的结构。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

史跃骏Erika

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值