机器翻译评测——NIST算法及安装

本文介绍如何在Windows环境下通过Cygwin搭建UNIX/Linux编程环境,并详细解析NIST评分机制,一种用于评估机器翻译质量的改进版BLEU算法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Windows环境首先安装Cygwin https://cygwin.com/install.html

Cygwin能在Windows环境下模拟UNIX/Linux环境编程,比安装虚拟机节省储存空间。

下载-选联网安装-下载网址选阿里云镜像 http://mirrors.aliyun.com/cygwin - 安装binutils, gcc, gcc-mingw, gdb, make, perl

依次输入gcc --version,g++ --version,make --version,gdb --version查看版本信息,说明安装成功;

将Cygwin的bin目录路径加入环境变量。

 

NIST(National Institute of standards and Technology)

是BLEU的一种改进,引入了每个n-gram的信息量(information)的概念。比起BLEU只简单地相加n-gram数量,NIST累加得到信息量然后除以整个译文的n-gram数,相当于增大一些出现少的重点词的权重。
信息量公式:

分母是n-gram在参考译文中出现的次数,分子是对应的n-1-gram在参考译文中的出现次数。对于一元词汇,分子的取值就是整个参考译文的长度。这里之所以这样算,应该是考虑到出现次数少的就是重点词这样的一个思路。计算信息量之后,就可以对每一个共现n-gram乘以它的信息量权重,再进行加权求平均得出最后的评分结果:

 

Lref 是参考答案的平均长度(注意L的上方有一个平均符号);Lsys是译文的长度;N一般取5;β是一个常数,在Lsys/Lref=2/3 时,β使得长度罚分率为0.5,它是个经验值,大概的曲线是:

 

NIST 官网 https://www.nist.gov/itl/iad/mig/tools

下载第三项 mteval-v14c-20190801.tar.gz ——mteval scoring script for machine translation evaluation

下载:

XML-Twing https://metacpan.org/release/XML-Twig

XML-Parser https://metacpan.org/pod/XML::Parser

expat-devel http://sourceforge.net/projects/expat/

Sort-Naturally https://metacpan.org/pod/Sort::Naturally

String-Util https://metacpan.org/pod/String::Util

均选择左下的 TOOLS -- Download

解压进入后 perl Makefile.PL -y;make;make install

使用NIST提供的example测试:

perl mteval-v14c.pl -r example/ref.xml -s example/src.xml -t example/tst.xml

其他用法

  • BLEU-4(官方OpenMT12评估指标)

调用行: perl mteval-v14c.pl -r REFERENCE_FILE -s SOURCE_FILE -t CANDIDATE_FILE -c -b

选项-c:区分大小写的得分

选项-b:仅BLEU得分

  • IBM BLEU(bleu-1.04a)

调用行: perl bleu-1.04.pl -r REFERENCE_FILE -t CANDIDATE_FILE

默认情况下,评分是区分大小写的

  • NIST(mteval-v13a)

调用行: perl mteval-v13a.pl -r REFERENCE_FILE -s SOURCE_FILE -t CANDIDATE_FILE -c -n

选项-c:区分大小写的得分

选项-n:仅NIST评分

  • TER(tercom-0.7.25)

调用行: java -jar tercom.7.25.jar -r REFERENCE_FILE -h CANDIDATE_FILE -N -s

选项-N:启用归一化

选项-s:区分大小写的得分

  • METEOR(气象0.7)

调用行: perl meteor.pl -s SYSTEM_ID -r REFERENCE_FILE -t CANDIDATE_FILE --modules “exact porter_stem wn_stem wn_synonymy”

选项–modules “exact porter_stem wn_stem wn_synonymy”:按照顺序使用所有四个METEOR匹配模块
 

参考资料

https://www.cnblogs.com/by-dream/p/7765345.html

### Dilithium算法国内外研究进展 #### 国外研究进展 Dilithium作为一种基于格的数字签名方案,在国外受到了广泛的关注和深入的研究。研究表明,Dilithium的安全性得到了显著提升,尤其是在量子随机预言机模型(QROM)中的安全性已经得到证明[^3]。具体来说,[DFMS19]的工作显示,只要底层的Σ-协议具备collapse特性以及特定的声音性(special soundness),那么经过Fiat-Shamir转换后的签名机制在QROM中就是安全的。 此外,针对Dilithium的具体实现优化也在不断推进。例如,为了提高效率并减少带宽消耗,研究人员探索了如何利用更高效的采样技术来加速密钥生成过程,并通过改进模块化运算方法降低计算开销。这些努力使得Dilithium不仅保持了高水平的安全保障,而且在实际部署时也能展现出良好的性能表现。 #### 国内研究进展 在国内,随着后量子密码(PQC)领域的发展,对于Dilithium的研究同样取得了重要突破。一方面,国内学者积极参与到国际标准制定的过程中;另一方面,围绕着Dilithium的实际应用展开了大量实验分析和技术攻关。特别是近年来提出的新型攻击手段——如陈一镭所设计的用于破解格密码系统的量子算法——促使更多科研人员投入到对抗此类潜在威胁的研究当中,旨在进一步巩固和完善Dilithium的设计原理及其变体版本[^4]。 同时,国内团队还致力于开发适用于中国国情的信息安全保障体系,这其中包括但不限于对Diluthium在内的多种PQC候选算法进行全面评测,确保它们能够满足国家信息安全战略需求的同时兼顾高效性和易用性。 #### 最新研究成果与安全性评价 最新的研究结果显示,Dilithium作为NIST第三轮评选中最优秀的几个公钥加密算法之一,已经在多个维度上获得了认可: - **安全性**:得益于其坚实的理论基础和支持多层防护措施的能力,即使面对未来可能出现的强大量子计算机,Dilithium依然可以提供足够的保护力; - **性能对比**:与其他竞争者相比,Dilithium表现出色的地方在于它能够在保证高安全等级的前提下维持较低的时间复杂度和空间占用率,这对于资源受限环境下的设备尤其有利。 综上所述,无论是从学术界还是工业界的视角来看,Dilithium都展现出了极高的潜力和发展前景。 ```python # Python伪代码展示Dilithium签名验证流程简化版 def dilithium_verify(public_key, message, signature): # 验证消息摘要是否匹配给定的签名 hash_value = hash_function(message) # 使用公共密钥恢复原始数据并与hash值比较 recovered_data = public_key.recover(signature) return hash_value == recovered_data ```
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值