2012年03月26日

利用对数线性模型进行词对齐训练的整个过程:

1、语料预处理

用python解析xml,生成src, trg, ref, srcTest, trgTest 和 refTest。

注意:由于本人是在linux下进行的预处理,所以要先将所有语料用notepad转换为与我的linux系统的编码相同(如uft-8),再将xml用dos2unix命令进行转换,,最后再用python解析,解析出来之后再把英文语料小写化。(这一步我是在自己的虚拟机上跑的)

 

2、训练

首先,用预处理后的语料跑GIZA++,得到data目录下面的文件(注意,如果要使用词根化的文本进行训练,则需要先将词根化后的文本经过GIZA++进行训练)(我是在160服务器上跑的)

然后,换掉旧的data目录,修改Vigne.ini

最后,利用src, trg, ref三个文件,放在run所在目录下,运行run,得到结果。(这一步我是在曙光机上跑的)

注意:如果是在Linux上运行,则要把Vigne.ini,run,minimum..等文件用dos2unix 转换一下

 

结果:

采用新方法:stem,提升7%

采用新特征:pos,提升8%

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值