MindSpore报错“ValueError:invalid literal for int()with base10‘the‘

1 报错描述

1.1 系统环境

Hardware Environment(Ascend/GPU/CPU): GPU
Software Environment:
– MindSpore version (source or binary): 1.2.0
– Python version (e.g., Python 3.7.5): 3.7.5
– OS platform and distribution (e.g., Linux Ubuntu 16.04): Ubuntu 4.15.0-74-generic
– GCC/Compiler version (if compiled from source):

1.2 基本信息

1.2.1源码

https://gitee.com/mindspore/mindspore/tree/master/model_zoo/official/nlp/lstm

1.2.2报错

报错信息:ValueError:invalid literal for int()with base10’the’.

2 原因分析

未按照教程处理数据集,README里说明了需要对数据集添加一行,用来读取40万个单词,每个单词由300维度的词向量来表示。

3 解决方法

在glove.6B.300d.txt文件的第一行之前插入一行:400000 300

4 总结

运行官方教程中model时,尽量做到对照README中的步骤去执行,遗漏了数据处理的步骤可能导致报错。

5 参考文档

official/nlp/lstm/README_CN.md · MindSpore/models - Gitee.com

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
训练好的中文GloVe词向量是通过对大规模中文语料进行训练得到的一种词向量表示方式。GloVe是一种基于全局词频统计的词向量训练方法,通过对语料中的词共现矩阵进行分解,得到每个词的词向量表示。相比于传统的基于语境窗口的词向量方法,GloVe能够更好地捕捉词之间的全局语义关系。 训练好的中文GloVe词向量在中文文本处理任务中具有以下优点。首先,它能够将词语表示为稠密的向量,这样可以更好地进行向量计算和语义相似度的度量。同时,GloVe能够将词与词之间的关系表示为向量空间中的几何关系,从而使得具有相似语义的词之间的距离更近,实现了语义的聚类效果。此外,训练好的GloVe词向量还具有很好的词频特性,能够捕捉词语的重要程度和频繁度,使得词向量在某些应用场景中更加准确。 为了训练好的中文GloVe词向量,首先需要准备大规模的中文语料库。然后,通过对语料库进行预处理和分词,将每个词语转化为一个唯一的ID。接下来,利用词共现矩阵和GloVe算法进行训练,在迭代的过程中优化词向量的表示。最后,根据训练得到的词向量,可以进行词语的语义相似度计算、主题聚类等任务。 总之,训练好的中文GloVe词向量是通过对大规模中文语料进行训练获得的一种词语表示方式,它具有较好的语义表达能力和词频特性,能够在中文文本处理任务中发挥重要作用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值