自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

翻译 文章翻译|EDITSUM: A Retrieve-and-Edit Framework for Source Code Summarization

为了缓解这个问题,本文提出了一种新的检索和编辑方法,名为EditSum,用于代码总结。具体来说,EditSum首先从预先定义的语料库中检索一个类似的代码片段,并将其摘要作为原型摘要来学习模式。然后,EditSum自动编辑原型,将原型中的模式与输入代码的语义信息相结合。我们的动机是,检索到的原型为后期生成提供了一个很好的起点,因为类似代码片段的摘要往往具有相同的模式。后期编辑过程进一步重用了原型中的模式化词语,并根据输入代码的语义信息生成了关键词。

2022-11-07 17:06:46 314

翻译 文章翻译|CODET: CODE GENERATION WITH GENERATED TESTS

给定一个编程问题,Codex等预训练语言模型已经证明了通过采样生成多种不同代码解决方案的能力。然而,从这些样本中选择正确或最佳的解决方案仍然是一个挑战。虽然验证代码解决方案正确性的一种简单方法是通过执行测试用例,但产生高质量的测试用例是非常昂贵的。在本文中,我们探索使用预先训练的语言模型来自动生成测试用例,我们的方法叫。CODET使用生成的测试用例执行代码解决方案,然后根据生成的测试用例和其他生成的解决方案的双重执行协议选择最佳的解决方案。

2022-08-22 20:53:38 592

翻译 文章翻译|Deep Learning Based Code Generation from Requirements Text: Are We There Yet?

为了将开发人员从耗时的软件开发中解放出来,人们提出了许多根据软件需求自动生成源代码的方法。随着深度学习和自然语言处理的显著进展,提出了基于深度学习的方法从自然语言描述生成源代码。关键的见解是,给定大量的软件需求及其相应的实现,高级深度学习技术可以学习如何将软件需求转换为满足这些需求的源代码。虽然这些方法声称为高度准确,但它们是在相当小的数据集上评估的,缺乏多样性,并且与现实世界的软件需求显著不同。为此,我们构建了一个大型数据集,该数据集由较长的需求和经过验证的实现组成。我们在这个新数据集上评估了SOTA方法

2022-07-27 22:53:16 366

翻译 文章翻译|TRANX:A Transition-based Neural Abstract Syntax Parser for Semantic Parsing and Code Generation

我们提出了TRANX,一个基于transition的神经语义解析器,将自然语言(NL)映射到formalmeaningrepresentation(MRs)。TRANX对目标MR使用了一个基于抽象语法描述语言的转换系统,这给了它两个主要的优势(1)该方法具有较高的准确性,可以利用目标MR的语法信息来约束输出空间并对信息流进行建模;(2)该方法具有较高的泛化性,只需编写一个与目标MR中允许结构相对应的抽象语法描述,就可以很容易地应用于新的MR模型。...

2022-07-22 15:05:57 988

原创 阅读笔记|Ensemble Learning for Multi-Source Neural Machine Translation

原文链接: Ensemble Learning for Multi-Source Neural Machine TranslationAbstract本文描述和评价了神经机器翻译(NMT)中进行集成预测的方法。我们比较了两种集合归纳的方法:NMT系统的采样参数初始化,这是NMT(Sutskever等,2014)中相对成熟的方法,以及NMT系统从不同源语言翻译成相同目标语言的方法,即多源集成,这是Firat等人(2016)最近提出的方法。我们的动机是观察到,对于不同的语言对,系统会犯不同类型的错误。我们提

2022-01-27 16:13:53 1057

原创 阅读笔记|Retrieve and Refine: Exemplar-based Neural Comment Generation

原文链接: Retrieve and Refine: Exemplar-based Neural Comment GenerationAbstract代码注释生成是软件自动化开发领域的一项重要任务,它旨在为源代码自动生成一种自然的语言描述。传统的注释生成方法使用手工制作的模板或信息检索(IR)技术为源代码生成摘要。近年来,基于神经网络的方法利用著名的编码器-解码器深度学习框架,从大规模的并行代码语料库中学习评论生成模式,取得了令人印象深刻的结果。但是,这些新出现的方法只接受与代码相关的信息作为输入。软

2022-01-15 22:33:52 664

原创 文章翻译|Semblance: An empirical similarity kernel on probability spaces

原文链接: Semblance: An empirical similarity kernel on probability spacesAbstract在数据科学中,确定观测值之间的接近度对于许多下游分析(例如聚类,分类和预测)至关重要。但是,当数据的潜在概率分布不清楚时,通常会随意选择用于计算数据点之间相似度的函数。在这里,我们提出了一种新的近似度定义,即“相似度”,它使用特征的经验分布来告知观测值之间的成对相似性。Semblance的优势在于其无分布公式,并且能够更加侧重于位于数据分布郊区而不是面

2022-01-13 17:53:41 320

原创 河北高校邀请赛——二手车交易价格预测学习笔记(3)

Task 03 特征工程特征工程是将原始数据转换为更能代表预测模型的潜在问题的特征的过程,包括特征筛选,提取特征和特征创造等手段。可能面对的问题:特征之间有相关性,特征和标签无关,特征太多或太小,或者干脆就无法表现出应有的数据现象或无法展示数据的真实面貌特征工程的目的:1) 降低计算成本,2) 提升模型上限在知名数据竞赛网站Kaggle上有一句非常经典的话,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。因此,特征工程是对最终结果影响最大的一步,值得我们好好设计。在实际比赛中,

2021-04-20 00:43:12 123

原创 河北高校邀请赛——二手车交易价格预测学习笔记(2)

Task 02数据分析数据探索在机器学习中我们一般称为EDA(Exploratory Data Analysis),指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。数据探索有利于我们发现数据的一些特性,数据之间的关联性,对于后续的特征构建是很有帮助的。数据总览:代码示例:下列分析全部以训练数据集为例,测试集同理。导入常用的数据分析库:#coding:utf-8#导入warni

2021-04-16 22:45:12 138

原创 河北高校邀请赛——二手车交易价格预测学习笔记(1)

Task 01赛题理解学习目标理解赛题数据和目标,清楚评分体系。完成相应报名,下载数据和结果提交打卡(可提交示例结果),熟悉比赛流程了解赛题赛题概况赛题以预测二手车的交易价格为任务,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏数据概况SaleID - 销售样本ID

2021-04-14 00:15:23 86

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除