2019年8月13日 《TensorFlow 实战Google深度学习框架 》学习 20190813-20180814

2014年提出的Seq2Seq模型。

训练步骤分为  预处理,词对齐,短语对齐,抽取短语特征,训练语言模型,学习特征权重等诸多步骤。

基本思想为:使用一个循环神经网络读取输入句子,将整个句子的信息压缩到一个固定维度的编码中;再使用另一个循环神经网络读取这个编码,将其解压为目标语言的一个句子。

对于平行预料的处理,首先,需要统计语料中出现的单词,为每个单词分配一个ID,将词汇表存入一个vocab文件,然后将文本转化为用单词编号的形式来表达。

这个WMT真是搞死我啦,从下载好到分词真的超级波折!!!因为对perl一窍不通!

首先你一定要在https://github.com/moses-smt/mosesdecoder网站上下载好所有代码,存入一个路径。

然后下载一个可以对perl进行运行的ActivePerl,下载好后运行下面语句可以查看其版本,我将perl直接放入了C盘下。

然后就可以按照书中教程对语料进行切词操作了!

首先以管理员身份运行cmd

C:\>perl E:/mosesdecoder-master/scripts/tokenizer/tokenizer.perl -no-escape -1 en <E:/en-zh/train.tags.en-zh.en> train.text.en

注意:运行完以上语句后,文件存在了C盘里面

完成!!!

为了分好中文的词,我又浪费了一个下午!可是丝毫没有结果,因为我的所有代码都在win下运行,而书中给出的sed是linux中的,换了很多命令都没有实现!

 

转载于:https://www.cnblogs.com/beautifulchenxi/p/11348044.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值