GPT-4来炸场:10秒输出一个网站,识图知意 so easy,为何如此丝滑

比被卷更可怕的莫过于自己卷自己,这点还得是OpenAI更胜一筹。

四个月前,ChatGPT 刚刚推出,并成为历史上增长最快的消费者应用程序。在ChatGpt大杀四方时,万众瞩目的大型多模态模型GPT-4也在今天凌晨正式发布。

据OpenAI官方介绍,GPT-4 实现了几个方面的飞跃式提升:强大的识图能力;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化;文字输入限制提升至 2.5 万字。

Q :手套掉下去会怎样?

A :它会掉到木板上,且球会被弹飞。

Q :这幅图有什么好笑的? 一点一点描述它。

A :该图像显示了一个包含三个图片的“Lightning Cable”适配器。 

图1: 一个智能手机与 VGA 连接器(一个大型,蓝色,15针连接器通常用于计算机显示器)插入其充电端口。  

图2: “Lightning Cable”适配器的封装,上面有一个 VGA 连接器的图片。  

图3: VGA 连接器的特写镜头,最后是一个小型Lightning连接器(用于为 iPhone 和其他苹果设备充电)。  

这张图片中的幽默来自于将一个过时的大型 VGA 连接器插入一个小型的现代智能手机充电端口的荒谬。

允许用例如长形式的内容创建、扩展会话、文档搜索和分析等。

 在简单对话中,ChatGPT与GPT-4可能看不出太大差距。但是,当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。

左边是ChatGPT,右边是GPT-4

为了解这两种模型之间的区别,OpenAI在各种基准测试中进行了测试,包括人类的模拟考试,比如GRE。OpenAI并没有针对这些考试进行专门培训,但GPT-4的排名依然名列前茅。例如,它通过模拟律师考试,分数在应试者的前10%左右;相比之下,GPT-3.5的得分在倒数10%左右。

虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准上已经和人类表现持平。

GPT-4对代码的敏感度也极强,在发布会上,OpenAI 总裁及联合创始人 Greg Brockman 向大家展示了 GPT-4 的强大编程技能:在草稿本上画出一个草图,拍照告诉 GPT-4 要做一个网站,效果如图,让 GPT-4 生成网站代码。

 10s左右,GPT-4就生成了网站的HTML代码:

这效率及成果也让很多开发者有了强烈的职场危机感,很难入睡,AI真的会取代程序员吗?

尽管 GPT-4 的功能已经非常强大,但它仍与早期的 GPT 模型具有相似的局限性。OpenAI 表示,GPT-4 仍然会产生幻觉、生成错误答案,并出现推理错误。目前,使用语言模型应谨慎审查输出内容,必要时使用与特定用例的需求相匹配的确切协议(例如人工审查、附加上下文或完全避免使用) 。

相对于此前的模型,GPT-4 已经明显减轻了幻觉问题。在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%:

OpenAI 表示,研究团队一直在对 GPT-4 进行迭代,使其从训练开始就更加安全和一致,所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。与 GPT-3.5 相比,模型对不允许内容的请求的响应倾向降低了 82%,而 GPT-4 对敏感请求(如医疗建议和自我伤害)的响应符合政策的频率提高了 29%。

 作为声明的一部分,OpenAI 分享了几个已经测试过 GPT-4的公司的用例,包括 Duolingo,Stripe,Morgan Stanley 和冰岛政府。该公司还分享了一个 GPT-4 的研究博客,并强调“ GPT-4仍然有许多已知的限制,我们正在努力解决,如社会偏见,幻觉和对抗性提示。”

参考:https://openai.com/research/gpt-4

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值