自然语言处理提高模型训练速度的方法

1 如果你的数据集较大的话,你可以根据数据集本身的数据分布划分出小的数据集,使用小的数据集验证你的代码是否有错,输入输出是否有误,直到全部无误之后,再使用大型数据集进行训练。否则加载数据集,训练数据集的时间花费就很大。
2 划分出自己的数据集的词向量,根据划分之后的词表,再根据word2vec的文件格式,创建自己的word2vec向量,这样在word2vec加载部分使用的时间也会减少一些。
3 如果你使用了分词工具,例如jieba分词,那么你可以选择先使用jieba分词将数据集切分好之后保存到一个文档中,当需要时直接读取那个文档中切分好的词就可以了。这个步骤能够节省大量的时间,因为结巴分词一个句子需要0.06s或者更多或者更少。我使用这个方法应对26万条数据时,从一开始的2300s到45s。意思就是jiaba分词占用了我数据集加载的大量时间,这也意味着,我每次加载都需要多花费几十分钟的数据加载时间。这个2300还是硬件支持的情况下,如果计算资源不够的话,这个值还可能达到4000多s,这个时间花销实在太大。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值