fasttext训练的bin格式词向量转换为vec格式词向量

最新推荐文章于 2023-01-19 16:38:21 发布

huyidu

最新推荐文章于 2023-01-19 16:38:21 发布

阅读量1.1k

点赞数 2

文章标签：自然语言处理深度学习 pytorch

本文链接：https://blog.csdn.net/huyidu/article/details/112712526

版权

fasttext训练的bin格式词向量转换为vec格式词向量

#加载的fasttext预训练词向量都是vec格式的，但fasttext无监督训练后却是bin格式，因此需要进行转换
# 以下代码为fasttext官方推荐：
# 请将以下代码保存在bin_to_vec.py文件中
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function
from __future__ import unicode_literals
from __future__ import division, absolute_import, print_function

from fasttext import load_model
import argparse
import errno

if __name__ == "__main__":
    # 整个代码逻辑非常简单
    # 以bin格式的模型为输入参数
    # 按照vec格式进行文本写入
    # 可通过head -5 xxx.vec进行文件查看
    parser = argparse.ArgumentParser(
        description=("Print fasttext .vec file to stdout from .bin file")
    )
    parser.add_argument(
        "model",
        help="Model to use",
    )
    args = parser.parse_args()

    f = load_model(args.model)
    words = f.get_words()
    print(str(len(words)) + " " + str(f.get_dimension()))
    for w in words:
        v = f.get_word_vector(w)
        vstr = ""
        for vi in v:
            vstr += " " + str(vi)
        try:
            print(w + vstr)
        except IOError as e:
            if e.errno == errno.EPIPE:
                pass

# 在bin_to_vec.py路径下执行该命令，生成unsupervised_data.vec
python bin_to_vec.py unsupervised_data.bin > unsupervised_data.vec

huyidu

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫