GPT-4o不仅能写代码,还能自查Bug,程序员替代进程再进一步!

目录

1 CriticGPT

01 综合性(Comprehensiveness):

02 幻觉问题(Hallucinates a problem):

2 其他 CriticGPT 案例


随着人工智能(AI)技术不断进步,AI在编程领域的应用取得了显著的成果。

通过使用自然语言处理(NLP)和机器学习(ML)技术,AI可以自动生成代码、检测错误并优化性能。

一个例子是OpenAI的Codex模型,它可以根据自然语言描述生成相应的代码片段,极大地提高了编程效率。



没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

CriticGPT

最近,OpenAI发布了一个名为CriticGPT的新模型,它是基于GPT-4训练的。CriticGPT专门用于审查由ChatGPT编写的代码,并捕捉其中的错误。

来看一下官网提供的例子,用户提交的需求是:

编写一个 Python 函数,该函数接受一个表示文件路径的字符串,并返回该文件的文件对象。禁止访问目录 "/safedir" 之外的文件。

GPT 给出了如下代码。

CriticGPT 提出了改进建议:

检查文件绝对路径是否在目录内时,使用 startswith() 存在安全风险。这是因为用户可以通过使用符号链接或类似命名的目录来利用漏洞。
 

为了增加安全性,建议使用 os.path.commonpath([absolute_file_path, absolute_safe_dir]) 或其他更健壮的路径包含方法来进行检查。

CriticGPT 能够帮助人类训练者在基于人类反馈的强化学习(RLHF)期间发现错误,并且使用 CriticGPT 的帮助,人类训练师在审查效果上比没有获得帮助的人强 60%。

下图展示了三种不同方法在编写批评性评论(critiques)时的表现比较:

  • Human(人类)
     
  • CriticGPT
     
  • Human + CriticGPT(人类 + CriticGPT)

01 综合性(Comprehensiveness):

用百分比表示批评意见的全面性。图表显示,与单独工作相比,当人类训练师使用 CriticGPT 时,他们提供了更全面的批评意见。

02 幻觉问题(Hallucinates a problem):

表示错误地识别问题的百分比,这个指标越低越好。图表显示,人类训练师在使用 CriticGPT 时,产生的幻觉错误比模型单独工作时更少。

OpenAI 正计划将类似 CriticGPT 的模型集成到其 RLHF 标记管道中,以提供更明确的 AI 帮助。

然而,目前 CriticGPT 还存在一些限制,例如它主要是通过 ChatGPT 进行短答案训练的,未来需要开发能够帮助理解冗长且复杂任务的方法。

此外,CriticGPT 偶尔会产生幻觉,导致训练师标记错误,而且在现实世界中的错误可能分散在答案的多个部分中,需要模型指出这些分散的错误。

对于极为复杂的任务或回应,即使是受到模型辅助的专家也可能无法正确评估。

2 其他 CriticGPT 案例

下图展示了如何编写一个安全的 Python 函数来返回指定路径的文件对象,同时确保文件在指定的安全目录内。

CriticGPT 提出了多项批评与改进建议,包括路径检查方法的安全性、文件打开模式的选择,以及错误处理的安全性。

如下是一段包含加密和解密函数的Python代码示例:

def encrypt(message, key):
    # 加密逻辑
    pass

def decrypt(ciphertext, key):
    # 解密逻辑
    pass

对于这段代码,CriticGPT提供了以下建议:

  • CriticGPT指出了代码中潜在的安全问题和逻辑错误,并强调了在加密和解密过程中验证消息完整性和真实性的重要性。

  • CriticGPT还提到了代码中处理错误的不足,特别是在处理字符串编码和解码时。

图表中指出“至少有一个此类评论来自于CriticGPT是一个幻觉错误”,即说明CriticGPT有时可能提供不准确或不相关的评论。


 如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!官网有更详细介绍:WildCard

推荐阅读:

超越GPT-4o!新王Claude 3.5 Sonnet来啦!

GPT-4替代大学生参加考试,94%成功作弊未被发现!

  • 68
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值