AI周报 | GLAT击败一众自回归翻译系统；运动捕捉新进展；UNIMO首次验证通过非平行文本与图像单模数据（8月特刊）

最新推荐文章于 2024-09-20 23:31:36 发布

极链AI云

最新推荐文章于 2024-09-20 23:31:36 发布

阅读量444

点赞数

分类专栏： AI周报文章标签：自然语言处理人工智能 python

本文链接：https://blog.csdn.net/m0_60673947/article/details/120056478

版权

1、字节跳动Glancing Transformer——机器翻译

2、腾讯微视——运动捕捉（黄金圣斗士铠甲特效）

3、百度——UNIMO：基于跨模态对比学习的统一模态理解与生成方法

一、最新论文解读

1.Unsupervised Translation of Programming Languages - 【Facebook】

转换编译器也称为源到源转换器，是一种将源代码从高级编程语言（如C++或Python）转换为另一种的系统。transcompiler主要用于互操作性，并将用过时或不推荐使用的语言（如COBOL、python2）编写的代码基移植到现代语言。它们通常依赖于应用于源代码抽象语法树的手工编写的重写规则。不幸的是，最终的翻译往往缺乏可读性，不遵守目标语言的约定，需要人工修改才能正常工作。整个翻译过程非常耗时，需要源语言和目标语言的专业知识，这使得代码翻译项目非常昂贵。尽管神经网络模型在自然语言翻译中的表现明显优于基于规则的模型，但由于该领域缺乏并行数据，神经网络模型在转写中的应用受到限制。在这篇论文中，我们建议利用无监督机器翻译的最新方法来训练一个完全无监督的神经跨编译器。我们在开源GITHUB项目上对源代码进行训练，并显示它可以在高精度的C++、java和Python之间转换函数。我们的方法完全依赖于单语源代码，不需要源语言或目标语言的专业知识，并且可以很容易地推广到其他编程语言。我们还构建并发布了一个由852个并行函数组成的测试集，以及检查翻译正确性的单元测试。我们证明了我们的模型比基于规则的商业基线有很大的优势。

2. CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation【Microsoft】

基准数据集对加速编程语言任务的研究具有重要影响。在本文中，我们介绍了CodeXGLUE，一个基准数据集，以促进机器学习研究的程序理解和生成。CodeXGLUE包括一个跨14个数据集的10个任务的集合，以及一个用于模型评估和比较的平台。CodeXGLUE还具有三个基线系统，包括BERT样式、GPT样式和编解码器模型，以便于研究人员使用该平台。这些数据和基线的可用性有助于开发和验证可应用于各种程序理解和生成问题的新方法。

3. Programming Puzzles【Microsoft】

我们引入了一种新的编程挑战&编程难题，作为对程序综合的客观和全面的评价，并发布了一个开放源码的Python编程难题数据集（P3）。每个拼图都是由一个简短的Python程序f定义的，目标是找到一个使f输出为“真”的输入x。这些谜题是客观的，因为每个谜题都完全由它的验证器f的源代码指定，所以评估f（x）是测试候选解x所需要的全部。它们不需要答案键或输入/输出示例，也不依赖于自然语言理解。数据集是全面的，因为它跨越了一系列困难和领域的问题，从人类程序员（但不一定是人工智能）可以立即看到的琐碎的字符串操作问题，到经典的编程难题（例如，河内塔），到面试/竞争编程问题（例如。，动态规划），以解决算法和数学中长期存在的开放性问题（如因式分解）。P3的客观特性很容易支持自监督自举。我们开发了基线枚举程序合成和GPT-3解算器，它们能够通过学习自己过去的解决方案来解决简单的难题——即使没有任何参考解决方案。基于一个小用户的研究，我们发现人类程序员和基线人工智能求解者之间难以关联。

4. CodeBERT: A Pre-Trained Model for Programming and Natural Languages【Microsoft】

我们提出了CodeBERT，一个用于编程语言（PL）和自然语言（NL）的双模预训练模型。CodeBERT学习支持自然语言代码搜索、代码文档生成等下游NL