AI生成曾小健
"AI生成曾小健2"是该号副号。AI生成式技术,计算机博士;这个博客的主题主要是AI生成式技术、AI相关技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
如果需要看商科/金融相关的请移步CSDN: 量化交易曾小健(金融号)
展开
-
[代码大模型]MHPP: Exploring the Capabilities and Limitations of Language Models Beyond Basic Code Generat
近年来,大型语言模型(LLMs)的进步在代码生成方面大大提高了性能,尤其是在功能级别。例如,GPT-4在HumanEval上的通过率为88.4%。然而,这引发了质疑现有基准在全面评估功能级别代码生成能力方面的充分性。我们的研究分析了两个常见的基准,HumanEval和MBPP,并发现,由于质量、难度和粒度等方面的限制,这些基准可能无法充分评估LLMs的代码生成能力。原创 2024-06-23 01:44:59 · 829 阅读 · 0 评论 -
谷歌发布代码大模型 CodeGemma
来源: OSCHINA编辑:谷歌发布了用于辅助编程的代码大模型。CodeGemma 基于谷歌今年 2 月发布的轻量级,针对 Gemma 的两个不同参数规模的版本Gemma 2B和 Gemma 7B 发布了 CodeGemma 2B 和 CodeGemma 7B(有预训练和指令微调两种)。,专门用于补全代码以及利用代码前缀和 / 或后缀生成代码,用于自然语言到代码的聊天和指令遵循,代码补全速度快至 2 倍。原创 2024-07-06 02:08:38 · 564 阅读 · 0 评论 -
再也不用举手之劳了?用ChatGPT评估代码生成的质量[期刊论文翻译]
再也不用举手之劳了?用ChatGPT评估代码生成的质量、唐玉田、下浦罗、、梁摘要——大型语言模型(LLM)在各种自然语言处理(NLP)任务中表现出令人印象深刻的能力,如机器翻译、问题回答、摘要等。此外,LLM在支持软件工程任务方面也非常有价值,特别是在代码生成领域。自动代码生成是根据给定的规范或需求自动生成源代码或可执行代码的过程,提高了开发人员的工作效率。在本研究中,我们使用最新的LLM产品ChatGPT对代码生成的质量进行了系统的实证评估。我们利用五种语言(原创 2024-07-13 14:39:22 · 1277 阅读 · 3 评论 -
[代码大模型]超越Devin!华为等| 解决接近30%的GitHub issues!最强CodeR来啦!
杀掉所有python进程。原创 2024-06-21 14:21:10 · 903 阅读 · 0 评论 -
用于生成编程语言的大型语言模型的系统评估[论文翻译]
用于生成编程语言的大型语言模型的系统评估侯文平美国纽约市哥伦比亚大学梅尔曼公共卫生学院生物统计学系通讯作者。电子邮件:wh2526@cumc.columbia.edu;zhicheng.ji@duke.edu季志成美国北卡罗来纳州达勒姆杜克大学医学院生物统计学和生物信息学系。通讯作者。电子邮件:wh2526@cumc.columbia.edu;zhicheng.ji@duke.edu抽象的我们系统地评估了七种大型语言模型在使用各种提示策略、编程语言和任务难度生成程序代码的性能。GPT-4 的表原创 2024-07-13 13:49:51 · 628 阅读 · 0 评论 -
CodeGeeX4-ALL-9B:新的开源代码模型击败了 DeepSeek Coder V2 和 Qwen-2 ?(全面测试)
原创 Aitrainee AI进修生 2024年07月08日 07:43 湖南https://github.com/THUDM/CodeGeeX4,时长08:31Hi,这里是Aitrainee,欢迎阅读本期新文章。这款模型是专门为编程任务训练的,基于之前的 GLM 4-9b 模型,GLM 4-9b 是同一家公司推出的一款很酷的模型。这款新模型只有 90 亿个参数,因此在本地设备上运行非常方便。官方称这是 CodeGX4 系列最新的开源模型,是一个多语言代码生成模型,持续在 GLM 49b 基础上训练,大大提原创 2024-07-08 15:47:07 · 1005 阅读 · 0 评论 -
牛叉!UConn | 提出代码生成大模型:AutoCoder,性能超越GPT-4o!
代码生成是当前软件开发人员的必备工具。它在代码标准化、软件原型设计、降低代码错误、复杂系统开发等方面,极大的提高了开发人员的工作效率。最近随着大模型技术(GPT-4、GPT-4o、 CodeQwen1.5 等)的发展,其在代码生成方面取得了重大的进步。这些模型在代码生成方面展现出了很高的准确性,并已实际应用在了软件开发中。训练大模型需要大量的高质量数据,这对于需要高精度的代码生成任务尤其重要。OpenAI 就曾经找人注释 Code Instruct 数据集来训练 InstructGPT。然而,原创 2024-05-29 14:44:08 · 1047 阅读 · 0 评论 -
[代码大模型benchmark]CodeFuseEval - 代码类大模型多任务评估基准
GPT3.5解释代码大模型评测基准回复如下,附:GPT的回答模型评测基准是优化模型、衡量不同架构模型的同类场景功能表现的最有效工具。如下表格,可以看到业界不同代码类评测基准,包含数据集、支持的代码语言、关键评估指标、支持的评测粒度等各个维度信息。附:代码任务评估基准从上述表格可以看到,代码类的评测基准也在逐步演进,从早期的单类型代码语言以及静态指标度量,到近几年支持多种类型代码语言和可执行的度量指标,到今年大模型迸发式发展后,多类型代码语言、多类型指标结合的基准体系。原创 2024-05-14 23:01:10 · 797 阅读 · 0 评论 -
CodeShell
在原始数据集的基础上,CodeShell采用基于Minihash对数据去重,基于KenLM以及高质量数据筛选模型对数据进行了过滤与筛选,最终得到高质量的预训练数据集。CodeShell基于Starcoder词表进行了优化,去除了使用频率较低的词语,并添加了部分中文词表,显著提升了中文的压缩率,为Chat版本的训练提供了基础。经审核通过后,将授予您一个全球的、非排他的、不可转让的、不可再授权的商业版权许可。在开始之前,请确保已经正确设置了环境,并安装了必要的代码包,以及满足上一小节的环境要求。原创 2024-05-14 22:53:53 · 978 阅读 · 0 评论 -
[代码大模型之数据集]xCodeEval
这项工作的一部分是由 Muhammad Abdullah Matin Khan Zarzis 作为伊斯兰科技大学计算机科学与应用理学硕士学位的要求而提交的。为了避免数据冗余,我们没有将这些数据包含在相关任务中,而是添加了一个唯一的 ID。示例组成,涵盖多达 17 种具有执行级并行性的编程语言。如果您在下载数据时遇到长时间延迟,请使用 Huggingface 流模式。我们还提出了一种新颖的数据分割和数据选择模式,用于基于。,并采用基于执行的评估。按照以下示例加载各个示例的数据集。的示例代码和数据链接。原创 2024-05-14 22:22:02 · 966 阅读 · 0 评论 -
ISSTA 2024 | 北大提出CoderUJB,面向代码大模型的可执行多任务代码评估基准揭示真实能力与局限
CoderUJB 通过整合 17 个开源 Java 项目的真实执行环境,构建起一个高度贴近现实软件工程场景的评估平台,有力推动了对大型语言模型(LLM)在软件工程领域适用性的研究。本研究揭示了 LLM 在非功能代码生成与缺陷检测等关键任务中的性能瓶颈,揭示了继续预训练与指令微调过程中潜在的性能波动问题,即这两种策略在特定情境下可能非但未能增强 LLM 能力,反而引发意外的性能下滑。原创 2024-05-14 22:17:20 · 1003 阅读 · 0 评论 -
[代码大模型]用于代码的大语言模型合集
https://arxiv.org/abs/2201.08239https://arxiv.org/abs/2204.02311https://arxiv.org/abs/2204.06745https://github.com/EleutherAI/gpt-neoxhttps://arxiv.org/abs/2211.05100https://arxiv.org/abs/2302.13971https://arxiv.org/abs/2303.08774https://arxiv.org/abs/2307原创 2024-05-04 16:56:04 · 487 阅读 · 0 评论 -
不用4个H100!340亿参数Code Llama在Mac可跑,每秒20个token,代码生成最拿手|Karpathy转赞
现在,巧妙的想法是使用一个小而廉价的草稿模型,首先生成一个由K个token组成的候选序列——「草稿」。这在实践中行之有效的原因是,大多数情况下,draft token都会被接受,因为是简单的token,所以即使是更小的草稿模型也能接受它们。在单个输入token上转发LLM所需的时间,与在K个输入token上批量转发LLM所需的时间相同(K比你想象的要大)。如果有分歧,我们就会扔掉草稿模型,承担做一些一次性工作的成本(对草稿模型进行采样,并对后面的token进行前向传递)。LLM在推理时是受内存限制。原创 2024-04-15 23:23:52 · 846 阅读 · 0 评论 -
北大开源最强aiXcoder-7B代码大模型!聚焦真实开发场景,专为企业私有部署设计
随着代码大模型的能力日益增强,它们在解决复杂编程问题上的卓越表现,不仅在提高软件开发的效率和质量上发挥着重要作用,在推动编程自动化的浪潮中扮演着关键角色,更激发了程序员们的创新潜能,让他们能够将更多的精力投入到探索和创造中。例如,正在进行数智化转型的某行业头部券商就采用了aiXcoder的大模型解决方案,在本地环境私有化部署代码大模型,且采用了模型的灵活调整方式,使智能开发系统与使用团队规模保持同步。同时,这些内容又都有私密性。因此,私有化部署和学习是不可避免的,而且,通常企业的部署资源是又是有限的。原创 2024-04-15 23:18:19 · 975 阅读 · 0 评论 -
HumanEval是如何进行代码评估的:从数据构成、评估逻辑到pass@k指标计算
本文主要针对humaneval这一评测任务,从数据、评估逻辑以及pass@k的评估指标计算方式进行了介绍,之前一直对pass@k有误解,认为是预测K次的通过率,读完代码实现本身才有更为准确的理解。代码评测,也是整个评测体系中十分重要的部分,感兴趣的可关注。原创 2024-04-15 23:08:02 · 1247 阅读 · 0 评论 -
aider, 8.6K+ Star!一个开发者提效工具,帮助你直接在终端与GPT-3.5/GPT-4交互,编写或修改任何目录中的代码
aider是一个命令行工具,它允许你与 GPT-3.5/GPT-4 进行配对编程,编辑存储在你本地 Git 仓库中的代码。aider 可以直接编辑你本地源文件中的代码,并通过 git 提交更改,附带合理的提交信息。你可以开始一个新项目或使用现有的 git 仓库。aider 可以直接在终端通过与GPT聊天的方式,编写或修改任何目录中的代码。原创 2024-04-14 13:12:30 · 758 阅读 · 0 评论 -
“程序员的终结者?‘Devin’——全能AI程序员的能力揭秘!”
这一事件引起了广泛关注和讨论,因为它不仅展示了AI在自主学习新技术、构建和部署应用程序、修复代码错误等方面的能力,还表明AI能够训练和微调自己的模型,这在以往的技术发展中是前所未有的。因此,"德温"的这些能力使其在SWE-bench编码基准测试中取得了突破性的成功,并展示了其执行复杂任务的能力,甚至超越了顶尖的人类工程师。)设置下,"德温"的性能得到了显著提升。总的来说,"德温"的诞生是AI技术发展的一个重要里程碑,它不仅展示了AI在软件工程领域的潜力,也为未来人机协作的模式提供了新的可能性。原创 2024-04-14 12:50:53 · 261 阅读 · 0 评论 -
曝AI行业泡沫:花500亿买英伟达GPU,只赚回30亿,AI程序员Devin的母公司Cognition AI杀疯了。成立于2023年底,种子轮融资估值就已经高达3.5亿美元!
GenAI X土耳其AI明星创业公司购买英伟达GPU,估值迅速增长,但实际投入与收入之间存在巨大差距。高成本和技术发展之间的平衡成为AI行业的讨论焦点……成立不到半年,估值达到20亿美元!AI程序员Devin的母公司杀疯了。Cognition AI正式成立于2023年底,种子轮融资估值就已经高达3.5亿美元!Cognition Labs的团队创始团队的10枚IOI金牌的「含金量」恐怖如斯。而在产品首个版本上线几周之后,他们就火速展开下一轮融资,并且估值一下就翻了6倍。原创 2024-04-06 20:31:32 · 624 阅读 · 0 评论 -
17.5K+ Star!借助AI的力量,提升软件开发效率,让创新无限可能
OpenDevin是一个开源项目,致力于复制、增强和创新原始的Devin模型。OpenDevin的目标是减少编码工作量,提高生产效率。它通过提供一个能够执行复杂工程任务并与用户在软件开发项目上积极协作的自主AI软件工程师来实现这一目标。项目的核心理念是“编码更少,创造更多”。原创 2024-04-04 21:04:46 · 623 阅读 · 0 评论 -
普林斯顿首个「开源」AI程序员SWE-agent登场!爆改GPT-4,93秒修bug
总结来说,通过智能体计算机接口(ACI),SWE-agent让LLM有了与专属的Docker容器互动,实现浏览、搜索、编辑和执行代码的功能,从而极大地拓宽了LLM在软件开发领域的应用范围。他们发布的世界上第一位AI程序员——Devin,不仅掌握了全栈技能,能自主学习不熟悉的技术,端到端地构建和部署应用程序,自己改bug,甚至还能训练和微调自己的AI模型!Devika是一个富有主动性的AI软件工程师,它能够理解人类的高级指令,把这些指令分解成具体步骤,搜集所需的信息,并据此编写代码来完成既定目标。原创 2024-04-03 14:34:41 · 617 阅读 · 0 评论 -
【论文解读-代码生成】IntelliCode Compose:使用 Transformer 的代码生成
研究方法:使用统计语言建模的方法来解决代码序列补全问题。使用n-gram模型作为baseline。基于GPT-2变体的生成式预训练Transformer模型(GPT-C),在大规模无监督多语言源代码数据集上从头开始训练。提出一个基于GPT-C和高效客户端缓存系统的端到端代码序列补全系统IntelliCode Compose。探讨和比较了多语言建模的各种方法。数据集:收集了包含12亿行Python、C#、JavaScript和TypeScript源代码的大型无监督数据集。原创 2024-03-26 23:47:24 · 688 阅读 · 0 评论 -
Code Llama 简介,一种最先进的大型编码语言模型
Code Llama 是针对代码任务的公开法学硕士的最先进技术,有可能使当前开发人员的工作流程更快、更高效,并降低学习编码人员的进入门槛。我们的基准测试表明,Code Llama 的表现优于开源、特定代码的 Llama,并且优于 Llama 2。的代码专用版本,是通过在其特定于代码的数据集上进一步训练 Llama 2 来创建的,从同一数据集中采样更多数据的时间更长。34B 和 70B 模型返回最佳结果并提供更好的编码辅助,但较小的 7B 和 13B 模型速度更快,更适合需要低延迟的任务,例如实时代码完成。原创 2024-03-26 23:18:21 · 1221 阅读 · 0 评论 -
写代码神器!48个主流代码生成LLM大模型盘点,包含专用、微调等4大类Code llama
LaMDA是一种专门用于对话的神经网络语言模型,通过预训练和微调,可以显著提高其安全性和事实依据。在安全性方面,使用少量众包工人注释的数据进行微调的分类器过滤候选响应可以提高模型的安全性。在事实依据方面,允许模型咨询外部知识源可以使生成的响应基于已知来源。原创 2024-03-26 23:11:35 · 2336 阅读 · 0 评论 -
代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞
关注实测在此一款号称代码能力超越GPT-4的模型,引发了不少网友的关注。准确率比GPT-4高出超过10%,速度却接近GPT-3.5,而且窗口长度也更长。据开发者描述,他们的模型取得了74.7%的Pass@1通过率,超过了原始GPT-4的67%,登上了Big Code榜首。这个模型名叫Phind,和以其为基础的面向开发者的AI搜索工具同名。它是由开发团队在CodeLlama-34B的基础之上微调得到的。原创 2024-03-25 23:09:18 · 661 阅读 · 0 评论