2019年8月13日《TensorFlow 实战Google深度学习框架》学习 20190813-20180814

dimaoe2852

于 2019-08-13 19:40:00 发布

阅读量125

点赞数

文章标签：人工智能操作系统

原文链接：http://www.cnblogs.com/beautifulchenxi/p/11348044.html

版权

2014年提出的Seq2Seq模型。

训练步骤分为 预处理，词对齐，短语对齐，抽取短语特征，训练语言模型，学习特征权重等诸多步骤。

基本思想为：使用一个循环神经网络读取输入句子，将整个句子的信息压缩到一个固定维度的编码中；再使用另一个循环神经网络读取这个编码，将其解压为目标语言的一个句子。

对于平行预料的处理，首先，需要统计语料中出现的单词，为每个单词分配一个ID，将词汇表存入一个vocab文件，然后将文本转化为用单词编号的形式来表达。

这个WMT真是搞死我啦，从下载好到分词真的超级波折！！！因为对perl一窍不通！

首先你一定要在https://github.com/moses-smt/mosesdecoder网站上下载好所有代码，存入一个路径。

然后下载一个可以对perl进行运行的ActivePerl，下载好后运行下面语句可以查看其版本，我将perl直接放入了C盘下。

然后就可以按照书中教程对语料进行切词操作了！

首先以管理员身份运行cmd

C:\>perl E:/mosesdecoder-master/scripts/tokenizer/tokenizer.perl -no-escape -1 en <E:/en-zh/train.tags.en-zh.en> train.text.en

注意：运行完以上语句后，文件存在了C盘里面

完成！！！

为了分好中文的词，我又浪费了一个下午！可是丝毫没有结果，因为我的所有代码都在win下运行，而书中给出的sed是linux中的，换了很多命令都没有实现！

转载于:https://www.cnblogs.com/beautifulchenxi/p/11348044.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2019年8月13日《TensorFlow 实战Google深度学习框架》学习 20190813-20180814

2014年提出的Seq2Seq模型。训练步骤分为预处理，词对齐，短语对齐，抽取短语特征，训练语言模型，学习特征权重等诸多步骤。基本思想为：使用一个循环神经网络读取输入句子，将整个句子的信息压缩到一个固定维度的编码中；再使用另一个循环神经网络读取这个编码，将其解压为目标语言的一个句子。对于平行预料的处理，首先，需要统计语料中出现的单词，为每个单词分配一个ID，将词汇表存入一...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。