有偿接单,代做项目
github地址:GitHub - ttjjlw/Embeding: 训练词向量,请前往该地址下载glove及gensim训练词向量的相关代码
gensim训练词向量:
1、进入Gensim Word2Vec文件夹,先执行generate_train_corpus.py文件
2、再执行Word2Vec.py文件,即可得到词向量
最后会得到以下三个文件:
embed.pkl : 包含所有词的词向量(0位置是<pad>的词向量,但数值全为0),在后续的nlp任务中(如分类等),该文件pickle.load() 后可直接拿来初始化词向量。
Vector.txt:每一行对应一个word及其词向量
vocabulary.pkl : word2id字典,其中<pad>:0并且词频越高id越小
glove训练词向量:
进入pytorch-glove-word2vec文件夹,直接执行glove.py文件即可
最后会得到glove.txt文件