基于word2vec的语言模型实践
构造三个不同的词典,分别储存每个词和id的映射关系:word2id_dict,每个id出现的频率:Word2id_freq,每个id到词典映射关系:id2word_dict。with open ("./text8.txt",'wb') as f:#wb以二进制格式打开文件,存在则覆盖,不存在则创建。corpus=corpus.strip().lower()#大写转小写、去空格。#把下载好的文件存储在当前的目录的text8.txt文件中。#使用Python的request包下载数据集到本地。
原创
2023-12-05 17:50:42 ·
76 阅读 ·
0 评论