机器翻译第一步--词向量的生成与保存

最近在看斯坦福大学机器翻译的开源代码,琢磨着把代码稍微改动一下,做成中文到英文的翻译。机器翻译的第一步是将词转化成词向量。斯坦福大学没有做中文的转化,我只好自己想办法。

我用的是斯坦福大学的nmt-matlab-master代码,显然这是用matlab编写的。matlab中没有直接将词转换成词向量的程序可用,Python倒是有一个:word2vec。所以我就先用Python生成,存储为.mat类型的文件,再应用到matlab上。

下面是代码:

from gensim.models import word2vec  
import logging  
   
logging.basicConfig(format='%(asctime)s:%(levelname)s: %(message)s', level=logging.INFO)  
sentences =word2vec.Text8Corpus(u"F:\chinese1w.txt")
model =word2vec.Word2Vec(sentences, size=200)   
model.save(u"F:\分词.mat")

对,就是这么简单。


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值