自然语言处理提高模型训练速度的方法

最新推荐文章于 2024-08-31 13:32:14 发布

永远的小白虾

最新推荐文章于 2024-08-31 13:32:14 发布

阅读量625

点赞数

分类专栏： NLP 文章标签：自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41487299/article/details/107425701

版权

NLP 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1 如果你的数据集较大的话，你可以根据数据集本身的数据分布划分出小的数据集，使用小的数据集验证你的代码是否有错，输入输出是否有误，直到全部无误之后，再使用大型数据集进行训练。否则加载数据集，训练数据集的时间花费就很大。
2 划分出自己的数据集的词向量，根据划分之后的词表，再根据word2vec的文件格式，创建自己的word2vec向量，这样在word2vec加载部分使用的时间也会减少一些。
3 如果你使用了分词工具，例如jieba分词，那么你可以选择先使用jieba分词将数据集切分好之后保存到一个文档中，当需要时直接读取那个文档中切分好的词就可以了。这个步骤能够节省大量的时间，因为结巴分词一个句子需要0.06s或者更多或者更少。我使用这个方法应对26万条数据时，从一开始的2300s到45s。意思就是jiaba分词占用了我数据集加载的大量时间，这也意味着，我每次加载都需要多花费几十分钟的数据加载时间。这个2300还是硬件支持的情况下，如果计算资源不够的话，这个值还可能达到4000多s，这个时间花销实在太大。

永远的小白虾

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

永远的小白虾 CSDN认证博客专家 CSDN认证企业博客

码龄7年

179: 原创

9万+: 周排名

111万+: 总排名

53万+: 访问

: 等级

4889: 积分

1371: 粉丝

441: 获赞

181: 评论

2258: 收藏

私信

关注

热门文章

分类专栏

C++ 34篇
UE4 55篇
UE5 9篇
MassAI 8篇
游戏人工智能 7篇
UE4实验 4篇
笔记 1篇
设计模式 3篇
算法题 7篇
图形学 3篇
windows 1篇
NLP 6篇
操作系统 6篇
Pytorch 16篇
python 6篇
论文 1篇
Godot 1篇
数据库 1篇
unity 12篇
机器学习 8篇
C#爬虫 7篇
数据结构 1篇
深度学习 5篇
C# 6篇
数学建模 2篇
图像处理 1篇
OpenGl 20篇

最新评论

【UE5小问题记录】下载城市示例时，提示空间不足
TimeSacle: 我也是这个问题，那C:\ProgramData\Epic\EpicGamesLauncher\VaultCache的这个文件可以删除吗
【UE5】UObject中调用WorldSubsystem
qq_33443536: 还有更好的方法 UWorld* UBTNode::GetWorld() const { if (GetOuter() == nullptr) { return nullptr; } // Special case for behavior tree nodes in the editor if (Cast<UPackage>(GetOuter()) != nullptr) { // GetOuter should return a UPackage and its Outer is a UWorld return Cast<UWorld>(GetOuter()->GetOuter()); } // In all other cases... return GetOuter()->GetWorld(); } 这是官方的写法，让UObject蓝图可以确定World，使用subsystem和gameplaystatics等。
几种简单的图像滤波（均值，高斯，中值）
永远的小白虾: 那视频也不是我的呀！
几种简单的图像滤波（均值，高斯，中值）
qq_47488371: 楼主你的视频教程失效了，可以重新分享一下嘛
Pytorch相似度计算
处眠: 想问下，dim=-1意思是沿着最后一个维度（即列方向）进行操作，但为什么我感觉是行方向啊？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。