Kedro架构及基本使用

Kedro是一个用于构建可复用和模块化机器学习代码的框架,旨在解决工程问题如版本控制、可复用性和部署。本文介绍了Kedro的架构,包括Pipeline Developer、Extension Developer和Library User的角色,以及项目、starter、library和framework的组成部分。工作流程涵盖了项目配置、数据管理、Pipeline创建和打包。Kedro通过配置文件管理数据,定义Pipeline,并支持数据和模型参数配置。此外,还讨论了如何打包和可视化项目。
摘要由CSDN通过智能技术生成

简介

Kedro 用来构建可复用,易维护,模块化的机器学习代码。相比于Notebook的超级灵活性,便于探索数据和算法, Kedro 定位于解决版本控制,可复用性,文档,单元测试,部署等工程方面的问题。

架构

Kedro定义了3个用户角色: Pipeline Developer, Extension Developer, Library User,主要由5个部分构成:project, starter, library, framework, extension

架构如下:
来自Kedro官方文档在这里插入图片描述Pipeline Developer主要同project交互,一个project是约定好的目录结构,包括配置,数据和代码。project最初的内容由starter产生,project的代码定义了Pipeline需要使用的节点,每个节点其实是一个函数,通过注册函数的输入输出,Kedro 可以确定函数执行的依赖关系,创建出Pipeline, Kedro-Viz 一个扩展工具,可以可视化Pipeline。

Kedro 自带了一些常用starter, 也可以由Extension Developer提供定制。

library提供了加载配置的工具,数据访问接口定义,Pipeline接口定义,运行策略接口定义,Extension Developer可以实现这些接口,library也提供了常用的实现,这些实现会最终和代码一起打包供Library User使用。

framework是project和libray的接口, 并提供了命令行工具和挂钩的接口供Extension Developer扩展Kedro. project会通过framework来启动运行会话(Session),Session通过上下文(Context)和libray交互来执行project中注册的Pipeline(由节点(函数)和输入输出数据组成) , Pipeline的接口和数据的接口都是在libray中定义的

工作流程

配置项目

执行后会进入交互式问答创建项目,基本就是起个名字。

kedro new
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
kedro-script.py是一个Python文件,其中包含了对Kedro项目进行命令行操作的脚本。 Kedro是一个开源的数据工程框架,能够帮助我们管理和组织数据科学项目。kedro-script.py提供了一些命令行接口,让我们能够方便地进行项目的开发和管理。 kedro-script.py脚本的功能包括但不限于以下几个方面: 1. 项目初始化:我们可以使用kedro init命令来初始化一个新的Kedro项目,该命令将会生成项目的基础结构、配置文件和初始代码等。 2. 数据集管理:kedro-script.py允许我们通过命令行添加、删除和管理数据集。例如,通过kedro dataset create命令可以创建一个新的数据集,kedro dataset delete命令可以删除指定的数据集。 3. 流水线操作:通过kedro run命令,我们可以运行一个或多个定义在Kedro项目中的流水线。流水线是由一系列任务组成的,这些任务在数据处理过程中按照一定的顺序执行。 4. 依赖关系可视化:kedro-script.py提供了kedro viz命令,可以生成数据管道的依赖图。这个依赖图能够帮助我们更好地了解数据管道的结构和每个节点之间的依赖关系。 总的来说,kedro-script.py是一个非常有用的工具,它简化了Kedro项目的开发和管理流程,使我们能够更加高效地处理数据科学项目。通过使用kedro-script.py,我们可以更加自由地操作数据集、运行流水线,并可视化整个数据管道的结构。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值