数据集上传和管理 - FATE v1.8.0

本文介绍了FATE v1.8.0中数据集的上传流程,包括前言、配置与提交任务、后续操作。重点讲解了数据集准备、DSL配置、Pipeline提交、数据表查询与管理,提供了常见问题及解决方案。
摘要由CSDN通过智能技术生成

小白一枚,简单记录一下FATE 使用遇到的坑~~~ 
本文根据官方文档整理了FATE flow 数据集表格上传的流程。
不要小看数据上传这一步,做好了这一步能够避免很多后续训练任务过程中的报错。

前言

实际上,除了直接上传数据文件以外,FATE还支持绑定数据库或是分布式文件系统的数据 (table binding)具体可以参考fate-flow的官方文档: Data Access - FATE Flow (federatedai.github.io)

以下是我的部署环境, 理论上使用其他模式(如docker) 部署的FATE 上传数据都适用本文
操作系统OS:CentOS 7 (多台Host)
FATE 部署模式:FATE on Spark (Spark 单机模式+无hdfs+RabbitMQ集群)
版本: v1.8.0 
链接:FATE/fate_on_spark_deployment_guide.md at master · FederatedAI/FATE · GitHub

前提 Prerequisite 

如果你想远程提交数据,需要先安装 fate flow client  pip install fate-client 
详见文档: FATE Flow Client - FATE Flow (federatedai.github.io) 
先检查客户端和部署机/docker容器的网络连接是否畅通。(docker 容器的端口需要暴露,fate flow http默认为 9380)
替换IP为部署端 并执行命令: flow init --ip 192.168.0.1 --port 9380 

如果你直接在部署机上传文件,不需要另外pip 安装。 不要忘记进入python虚拟环境。不同部署方式或版本的具体路径可能不同。source /data/projects/fate/bin/init_env.sh 

准备数据集文件 Prepare your dataset file  

FATE 会把上传的文件以数据表格的形式保存,存储引擎可以是本地文件系统,也可以是HDFS等分布式系统。 数据上传后才能被加载转换为数据实例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值