2012年03月26日

davidcqw

于 2014-05-08 18:58:04 发布

阅读量486

点赞数

分类专栏： NLP 文章标签：杂谈

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/davidcqw/article/details/25332411

版权

NLP 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

利用对数线性模型进行词对齐训练的整个过程：

1、语料预处理

用python解析xml，生成src, trg, ref, srcTest, trgTest 和 refTest。

注意：由于本人是在linux下进行的预处理，所以要先将所有语料用notepad转换为与我的linux系统的编码相同（如uft-8），再将xml用dos2unix命令进行转换，，最后再用python解析，解析出来之后再把英文语料小写化。（这一步我是在自己的虚拟机上跑的）

2、训练

首先，用预处理后的语料跑GIZA++，得到data目录下面的文件（注意，如果要使用词根化的文本进行训练，则需要先将词根化后的文本经过GIZA++进行训练）（我是在160服务器上跑的）

然后，换掉旧的data目录，修改Vigne.ini

最后，利用src, trg, ref三个文件，放在run所在目录下，运行run，得到结果。(这一步我是在曙光机上跑的)

注意：如果是在Linux上运行，则要把Vigne.ini，run，minimum..等文件用dos2unix 转换一下

结果：

采用新方法：stem，提升7%

采用新特征：pos，提升8%

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

davidcqw CSDN认证博客专家 CSDN认证企业博客

码龄10年

21: 原创

124万+: 周排名

109万+: 总排名

3万+: 访问

: 等级

632: 积分

1: 粉丝

1: 获赞

2: 评论

2: 收藏

私信

关注

热门文章

分类专栏

NLP 11篇
IT 4篇
Programming 10篇
Career 1篇
Reading 4篇
Idea 1篇
Beijing 1篇
Research 2篇
Love
Tool 2篇
SMT 1篇

最新评论

运行 Moses 期间遇到的问题
amykaka001: Hi, 博主，我最近也在做en-zhcn的机器翻译系统，现在在en-zh的语料集上停滞不前，你能把你用的两个文件ch和en发给我吗？万分感谢！邮箱： 623585754@qq.com
各大知名企业的Research展示
dlmult: 谢谢分享。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。