IBM model 1

最新推荐文章于 2021-12-05 07:53:37 发布

messiandzcy

最新推荐文章于 2021-12-05 07:53:37 发布

阅读量6.1k

点赞数 2

分类专栏：学习文章标签： IBM model1 EM 词对齐

本文链接：https://blog.csdn.net/messiandzcy/article/details/44813041

版权

本文介绍了IBM Model 1在统计机器翻译实验中的应用。通过参考《统计机器翻译》中文版61页的伪代码，实现了针对三个对齐句对的处理。尽管当前代码未经过大规模平行语料库验证，但后续将进行优化以提高性能。

摘要由CSDN通过智能技术生成

RT，蛋疼的MT实验~

伪代码请参见《统计机器翻译》中文版61页。

ps：输入只是参考了书上的例子——三个对齐句对~保证和书上输出的概率相同

该代码还没有经过大规模平行语料的检验。。后续有待优化~

输入：data.e

the house
the book
a book

data.f

das Haus
das Buch
ein Buch

python代码ibmModel1.py：

#coding=utf-8
import os

#Read File to pairs
fp_en = open('data.e','r')
fp_cn = open('data.f','r')
iters = 1
pairDic = {}

#生成原始序对字典
countPair = 0
for line_cn,line_en in zip(fp_cn,fp_en):
    f = line_cn.split()
    e = line_en.split()
    for word1 in f:
        for word2 in e:
            pairDic[countPair] = (word1,word2)
            countPair += 1
    iters += 1
fp_en.close()
fp_cn.close()


#先将序对字典一次性去重
lst = list(set(pairDic.values()

最低0.47元/天解锁文章

messiandzcy

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
IBM model 1

RT，蛋疼的MT实验~伪代码请参见《统计机器翻译》中文版61页。ps：输入只是参考了书上的例子——三个对齐句对~保证和书上输出的概率相同该代码还没有经过大规模平行语料的检验。。后续有待优化~输入：data.ethe housethe booka bookdata.fdas Hausdas Buchein Buchpython代码ibmModel1
复制链接

扫一扫