机器翻译
文章平均质量分 69
寒小阳
对机器学习/数据挖掘/算法感兴趣,并从事相关工作。『我们是一群热爱机器学习,喜欢交流分享的小伙伴,希望通过“ML学分计划”交流机器学习相关的知识,认识更多的朋友。Q_Q群号 : 2000人群169492443(已满), 2000人群564538990(已满), 2000人群285273721,从业和研究人员请加群472059892,欢迎加入获取资料,分享和讨论相关知识』
展开
-
手把手教你编译MOSES机器翻译系统
摩西是一个由英国爱丁堡大学的SMT先锋团队[科恩等人,2007 ]开发的翻译系统。摩西的最新版本支持许多特征和功能。例如,它支持基于短语和基于语法基础的模型(从短语/规则提取解码)。同时,它提供的因素翻译模型(factored translation model)使得系统能够使用在不同层次的多种信息。此外,混淆网络(confusion network)和字格(word lattices)可以用来作原创 2013-08-20 11:51:35 · 12769 阅读 · 1 评论 -
基于统计的开源翻译系统介绍
到目前为止,多个开源的SMT系统已经开发出来,在完成许多翻译任务中有着先进惊人的性能,如中国的英语和阿拉伯语的英文翻译。这些系统中的一些重点使用基于短语的模型(如摩西),且多年来已经已被广泛用于社区,而其他人试图用层次模型(如Joshua)处理不同语音之间的句法结构的变化。虽然这些系统和其使用的方法都能得到很有竞争力的翻译质量,但是他们的侧重点不一样,也有着不同的长处和弱点。以下我将对目前开源的S原创 2013-08-20 17:09:13 · 5000 阅读 · 0 评论 -
机器翻译重要过程(4)---估计概率构造短语翻译表
经过第三步抽取短语后,获得基于短语系统使用的翻译短语对,而接下来的第四步就是短语翻译表概率估计,它的作用是对翻译短语对的正确性进行合理的评估。 在上一节,我们得到了短语对集合,如下图所示: 在这里,我们估计概率主要进行四个分数的计算,即双向短语翻译概率(正向:“源语言->目标语言”方向;反向:“目标语言->源语言”方向 )、双向词汇化权重。首先,在上图上原创 2013-08-25 06:04:10 · 5838 阅读 · 2 评论 -
机器翻译重要过程(3)---抽取短语
上一步通过GIZA++进行词语对齐,我们得到了对应的中英文词对,在此基础上我们就可以进行第三个重要过程了,即抽取短语。短语抽取是短语翻译表构造的第一步,而短语翻译表是翻译系统解码器的要使用到的最重要组件之一,所以抽取短语这一步意义非常大。示例: 上图展示了从含有词对齐信息的双语平行句对(上方图所示)中抽取的短语对(中下方的“示例短语”所示)。从图中可以看出,理想原创 2013-08-25 13:23:09 · 8350 阅读 · 0 评论 -
机器翻译重要过程(1)---数据预处理
目前有如之前基于统计的开源翻译系统介绍中提到的许多开源统计翻译系统,在由原始平行语料到形成最后的翻译系统的整个过程中,它们有一些相同的处理步骤,从这次的文章开始,陆续介绍几个最重要的过程做法及其意义。 一般在我们得到双语平行语料之后,在构建双语统计翻译系统之前,都会有一个双语数据预处理的过程,为后续例如词对齐处理提供分好词且格式恰当的双语数据。这里以汉英双语数据举例。原创 2013-08-24 19:42:05 · 10606 阅读 · 0 评论 -
使用MOSES搭建网页翻译系统
在你完成整套moses的训练和微调(tuning)之后,你可以在本机上对文本里面的内容进行翻译,或者手动在终端输入进行翻译。这种方式作为研究是可以的,只适合单人使用,一个实际的服务器能同时处理多个人的翻译需求,且整个系统只启动一次,不用每次来一个请求载入一次相关数据(因为moses的数据较大时载入需要一定时间)。这样我们就应该以server的形式启动我们的翻译系统。1 简介原创 2013-08-21 11:51:23 · 6934 阅读 · 5 评论 -
从头细说统计机器翻译(1)
做统计翻译系统(SMT,statistical machine translation)也有一段时间了,接触了大大小小好几个翻译系统,使用它们的同时也对其原理进行了一定的了解,阅读了一些中英文资料文献,对统计机器翻译的过程有了一个比较完整的认识,自己也做了一些笔记。比较详细的一本介绍统计机器翻译的书是Philipp Koehn写的《Statistical Machine Translation》,原创 2013-08-26 17:48:26 · 13674 阅读 · 0 评论 -
机器翻译重要过程(2)---词语对齐
在上一步预处理完成之后,平行句对中的中文部分都被切分成了相应的短语,而英文的大小写、格式、相应的空格也都加上了,在这之后就可以完成词语对齐的过程了。词语对齐的目标是得到中英文词或短语的对齐信息,便于翻译系统做解码时寻找相应的phrase。 词语对齐这一步一般都采用开源工具完成,比如现在用的最多的GIZA++,但是在平行语料数据量大的情况下,可能其完成整个词语对齐的过程耗时较长。现在也原创 2013-08-24 20:31:18 · 12437 阅读 · 0 评论 -
MOSES的高级特征和功能
一、Binary Phrase Tables with On-demand Loading顾名思义,就是moses具有这样一个功能:将词表(phrase table)二值化并按所需(所需要翻译的内容)载入需要的部分。这是因为一个实际的翻译系统,其phrase table通常会非常大,大到很难一次性将其载入内存。首先需要将标准ascii编码的phrase tables转化成二值化的格式,以下原创 2013-08-20 17:53:52 · 5597 阅读 · 2 评论 -
机器翻译评估标准介绍和计算方法
对于翻译系统翻译出来的结果,我们当然可以人工判断其好坏,但这有很多限制。首先,每个人的评判标准不一样;然后,这对于评判人自身的英语水平也是有一定的要求的。近年来国际上也出了一些用于机器评判翻译结果好坏的标准,下面一一介绍一下这些标准及其计算方法:一、BLEU评测方法BLEU(Bilingual Evaluation understudy)方法由IBM提出,这种方法认为如果熟译系统魏译文越接原创 2013-08-20 21:31:27 · 27502 阅读 · 4 评论 -
MOSES系统训练中间过程和意义详解
关于Moses训练的那些事 前面已经将moses从编译到训练测试的整体流程过了一遍,想必大家对这个工具有了一个大致的理解。这里再详细说一些东西,可能能帮助大家对moses有更深的认识。 也许你在训练过程中会遇到一定的问题,事实上,训练总共分为7个steps(步骤),有些情况下(尤其是语料非常大的时候,这个本人非常有体会,昨天训练了700万句平行语料数据,结果...)执行原创 2013-08-20 16:44:27 · 7450 阅读 · 1 评论 -
MOSES翻译系统的训练,调优和使用
这里我假设你已经成功安装了摩西moses,并希望在平行语料数据的基础上建立一个真正的短语翻译系统。这个过程需要一定的Unix的基础,理想情况下,最好还有一台Linux服务器。当然,如果你只是想试试的话,你也可以在一台笔记本电脑上安装并运行它,但最少要2G的内存(貌似现在的电脑都至少有这么大吧),和10G的空闲磁盘空间(声明一下,这是本人估计的,有可能配置达不到这个也能跑,但训练的速度会非常慢的)。原创 2013-08-20 15:32:49 · 13921 阅读 · 31 评论 -
NLP系列(6)_从NLP反作弊技术看马蜂窝注水事件
作者: 龙心尘时间:2018年11月出处:https://blog.csdn.net/longxinchen_ml/article/details/84205459按:本文基于网易云课堂公开课分享内容整理补充完成。感谢志愿者july同学的贡献。10月21日,朋友圈被一篇名为《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章刷屏。文章作者小声比比指控在线旅游网站马蜂窝存在点评大...原创 2018-11-18 22:06:00 · 4552 阅读 · 2 评论