自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 大模型集体翻车:大模型的推理原理

在最近,有人使用生成式AI来比较9.11和9.9哪个数字更大,结果大模型们给出的答案让人大跌眼镜,许多知名的生成式AI全部答错,认为9.11比9.9大,包括Google Gemini、GPT-4o、Claude3.5等一众大模型全部答错:-- Gemini在后续修复了这个问题-->从以上的结果可以得知,大模型们在面对这个问题时,就是在一本正经地胡说八道,GPT-4o甚至给出了“1比9小,所以要比较到下一位”的荒唐结论,本文将讲解AI大模型的推理的过程与原理。

2024-07-21 08:51:05 644

原创 67M大模型比肩万亿参数的GPT-4,微软MIT等破解transformer密码

这次这个67M的大模型的测试结果很令人意外,在此前,因果推理一直是模型训练中一个比较冷门的方面,不过这次研究证明了因果推理在Transformer领域也是一个可行的方案。探索因果推理的世界不仅揭示了人工智能领域的一个重要方面,而且强调了如何通过创新的方法,如公理训练,来增强机器的学习能力。本博客深入研究了因果推理的研究进展,尤其是Transformer模型在学习因果规则方面的潜力。我们看到了通过演示因果公理,模型能够推断出新的因果关系,并在多种场景下展现出令人鼓舞的泛化能力。

2024-07-16 15:11:29 1114

原创 Deepmind发布新方法JEST:训练时间减少13倍,算力需求节省90%

其次是训练时间长,OpenAI用了13万亿个token训练出了GPT-4,用了25000个A100训练了90到100天,而且利用率在32%到36%之间,故障数量过多也是极低利用率的原因,这会导致需要重新从之前的检查点开始训练。最近Google的人工智能团队发布了全新的数据训练方法——JEST,这种训练方法能够让训练时间减少13倍,让所消耗的算力降低90%,这无疑对AI领域是一个巨大的好消息,具体原因将在下文中具体展示。预处理的目的是减少模型需要处理的数据复杂性,使模型能够更好地学习文本的语义。

2024-07-13 11:51:21 1279

原创 浦语灵笔InternLM2.5-7B发布,在数学推理方面超越 Llama3 和 Gemma2-9B

浦语·灵笔2.5是基于书生·浦语2大语言模型研发的突破性的图文多模态大模型,仅使用 7B LLM 后端就达到了 GPT-4V 级别的能力。浦语·灵笔2.5使用24K交错的图像-文本上下文进行训练,通过RoPE外推可以无缝扩展到96K长的上下文。这种长上下文能力使浦语·灵笔2.5在需要广泛输入和输出上下文的任务中表现出色其具有以下特性:卓越的推理性能:在数学推理方面取得了同量级模型最优精度,超越了 Llama3 和 Gemma2-9B。

2024-07-09 19:42:18 1166

原创 骁龙X Elite发布,Windows on Arm再添新成员

自古以来,Windows笔记本续航时间过短的问题一直存在,而伴随着Apple silicon中出现桌面端处理器M系列,这个问题无疑被放大了,越来越多的用户或媒体开始将笔记本续航的标杆视为MacBook。

2024-07-07 19:19:51 1135

原创 Google推出Gemma 2.0,Gemma家族迎来全新一员

自从bard后,Gemini家族成为了Google公司的当家大模型,不过Google为了给开源社区贡献创新,于是用Gemini模型的相同研究和技术构建了Gemma,Gemma这个名字反映了拉丁语“gemma”,意思是宝石,以支持开发人员创新,促进协作,并指导负责任地使用Gemma模型。GemmaGeminigemma------摘自不仅只有Gemma,Google还在其基础上衍生出了CodeGemma、RecurrentGemma和PaliGemma。

2024-07-06 22:15:50 1634 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除