高效读取词向量的方法

最新推荐文章于 2024-07-09 22:42:23 发布

weixin_30338461

最新推荐文章于 2024-07-09 22:42:23 发布

阅读量510

点赞数

文章标签：开发工具 c/c++

原文链接：http://www.cnblogs.com/demo-deng/p/10150705.html

版权

当我们训练的词向量保存为txt时候，如果不是直接读取到内存，找对应词的向量，这样会非常耗时

　　方法1.用gensim读取成model的形式，从内存中获得数据

　　方法2.读取txt文件，用enumerate()将数据放到字典里面，后期查找的时候用这个字典，主要代码如下：

1     for i, line in enumerate(codecs.open(emb_path, 'r', 'utf-8')):
2         line = line.rstrip().split()
3         if len(line) == word_dim + 1:
4             pre_trained[line[0]] = np.array(
5                 [float(x) for x in line[1:]]
6             ).astype(np.float32)
7         else:
8             emb_invalid += 1

转载于:https://www.cnblogs.com/demo-deng/p/10150705.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30338461

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
高效读取词向量的方法

当我们训练的词向量保存为txt时候，如果不是直接读取到内存，找对应词的向量，这样会非常耗时　　方法1.用gensim读取成model的形式，从内存中获得数据　　方法2.读取txt文件，用enumerate()将数据放到字典里面，后期查找的时候用这个字典，主要代码如下：1 for i, line in enumerate(codecs.open(emb_path, 'r', ...
复制链接

扫一扫