利用kaggle的GPU训练自己的模型（项目）

干就完事！

已于 2023-06-03 21:26:06 修改

阅读量9.5k

点赞数 15

分类专栏： kaggle 文章标签：深度学习人工智能

于 2023-05-25 16:31:38 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_53919099/article/details/130867160

版权

kaggle 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

目录

一、上传项目

二、训练模型

2.关于下包以及配置虚拟环境的问题

1）创建虚拟环境

1）两种方法：

2）关于写文件的问题

4）离线训练

4.下载日志、运行结果什么的

三、模型预测

一、上传项目

网址：

登陆后，将项目(连同数据集和代码一起）压缩上传，上传需要梯子。

上传成功后点击create，kaggle会自动解压压缩包，处理完成后会有successful提示。

二、训练模型

1.导入项目

新建一个笔记本（同Jupyter notebook)

左上角的"note..."为该笔记本的名称，可以自行重命名，点击 + 新增一个cell，点击垃圾桶形状的按钮删除当前选定的cell。

选择Add Data添加数据

选择Your Datasets将显示你上传的数据集，选择数据集旁边的 + 则可以将数据集添加到当前笔记本

2.关于下包以及配置虚拟环境的问题

1）创建虚拟环境

我用conda创建虚拟环境报错，解决不了遂放弃。

2）下包

!pip install 包名（感叹号为英文感叹号）

ps:哦对，下包要连接网络，第一次使用kaggle的话需要先手机验证

注：

有的时候会发现之前下了的包一段时间后又不存在了，这个时候报错"no model name..."只能重新下。

因为我的项目用到了transformers，虽然kaggle内含transformers，但它的版本比我需要的高，想去降级transformers，下不下来，遂放弃，后来直接使用kaggle内置的transformers运行项目，发现成功跑起来了，不懂，能跑就行。

kaggle内的tensorflow版本是2.0的，我尝试过下载tensorflow1.0版本，下载失败，遂放弃。

综上，kaggle内有很多库，直接运吧，缺啥补啥。

3.训练模型

1）两种方法：

1.!python xxx.py

注：使用此语句需确保代码在本地的时候已调试通，否则报错只能在本地改好后再重新上传，如果项目很大的话上传很浪费时间。

2.将你需要运行的代码复制粘贴到一个cell里，这样你可以直接在这里调试你的代码，不需要回到本地改了再上传。

（很重要！！！）不管你使用哪种方法，都建议在你的代码里面使用的文件路径最好用相对路径，因为你使用Add Data添加数据时，你的数据的路径其实是/kaggle/input/数据集的名字（就是上传数据时命名那个），如果使用绝对路径的话，只能回到本地改了再上传，但使用相对路径的话，你就可以通过

cd /kaggle/input/数据集的名字

将你的工作路径定位到此，此时运行程序的话就不会报找不到文件的错误。

2）关于写文件的问题

如果你的模型在训练过程需要写文件，那么你就可以通过下述方法将你的数据复制到/kaggle/working/目录下，因为input目录只可读，而working目录可读可写。

(如果想在input运，则要更改写文件的地址，很麻烦不推荐）

import shutil

# 复制文件或目录
shutil.copytree('/kaggle/input/数据集名字', '/kaggle/working/随便取个名字')
注：能不能就这样 ‘/kaggle/working/’ 答：不知道，可以尝试一下

欸，写到这里，既然working目录可读可写，那是不是可以将需要修改的文件复制到此修改呢，网上搜一搜有博主这么讲过，但因为我的模型训练时要用到别的文件，所以我将整个项目复制到working后，查看下一级目录后转半天转不出来，目录分级较多的我直接放弃。

还有一个注意点，working下的文件在一段时间后会被清空。但将模型放到该目录下离线训练没有问题。

3）开启GPU

免费的GPU训练时间一周只有30个小时，建议先用CPU调试好了之后再启动GPU。

4）离线训练

若模型训练时间较久的，不建议直接在cell中训练，因为你一段时间不操作后会掉线。建议选择右上角的 "save version”离线训练，但一次训练好像最多只能跑9小时。

记得选这个，然后save就行。

4.下载日志、运行结果什么的

5.关掉GPU

关GPU也是在这里，然后 "save version”

注：

不要在这里关GPU，没有用

三、模型预测

如果模型预测可以用CPU的话，从kaggle上下载输出结果后可直接在本地运行。

当然也可以在kaggle里运行。

干就完事！

关注

15
点赞
踩
142

收藏

觉得还不错? 一键收藏
3
评论
利用kaggle的GPU训练自己的模型（项目）

不管你使用哪种方法，都建议在你的代码里面使用的文件路径最好用相对路径，因为你使用Add Data添加数据时，你的数据的路径其实是/kaggle/input/数据集的名字（就是上传数据时命名那个），如果使用绝对路径的话，只能回到本地改了再上传，但使用相对路径的话，你就可以通过。如果你的模型在训练过程需要写文件，那么你就可以通过下述方法将你的数据复制到/kaggle/working/目录下，因为input目录只可读，而working目录可读可写。登陆后，将项目(连同数据集和代码一起）压缩上传，上传需要梯子。
复制链接

扫一扫

专栏目录

干就完事！ CSDN认证博客专家 CSDN认证企业博客

码龄4年

1: 原创

161万+: 周排名

148万+: 总排名

1万+: 访问

: 等级

40: 积分

2: 粉丝

16: 获赞

5: 评论

150: 收藏

私信

关注

热门文章

分类专栏

pytorch 1篇
kaggle 1篇
python 2篇
tensorflow 2篇

最新评论

windows tensorflow2 object-detection api 下载安装
layman_huang: 在安装object-detection api的时候，不能直接pip下载某个包（也不要换源），这样会导致缺少依赖，无法使用该api，而且易导致各种包之间版本冲突。，直接下也下不了啊
利用kaggle的GPU训练自己的模型（项目）
Artem Wing: 同问，请问您找到解决方法了么
利用kaggle的GPU训练自己的模型（项目）
infinitehhhh: 求教怎么将训练过程的model数据保存在output里啊，改了新建保存目录路径在output但没用，还有怎么调用训练好的模型继续测试啊，代码运行每次一断，就又要重来～
利用kaggle的GPU训练自己的模型（项目）
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
python 列表list相关操作
CSDN-Ada助手: 恭喜您又写了一篇不错的博客，标题看起来很有实用价值。建议您可以继续深挖 Python 中其他数据类型的相关操作，比如元组、字典等，这样能够让读者更全面地了解 Python 的数据结构。再次感谢您的分享。 CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

大家在看

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。