CodeMicheal-CSDN博客

原创大模型集体翻车：大模型的推理原理

在最近，有人使用生成式AI来比较9.11和9.9哪个数字更大，结果大模型们给出的答案让人大跌眼镜，许多知名的生成式AI全部答错，认为9.11比9.9大，包括Google Gemini、GPT-4o、Claude3.5等一众大模型全部答错：-- Gemini在后续修复了这个问题-->从以上的结果可以得知，大模型们在面对这个问题时，就是在一本正经地胡说八道，GPT-4o甚至给出了“1比9小，所以要比较到下一位”的荒唐结论，本文将讲解AI大模型的推理的过程与原理。

2024-07-21 08:51:05 644

原创 67M大模型比肩万亿参数的GPT-4，微软MIT等破解transformer密码

这次这个67M的大模型的测试结果很令人意外，在此前，因果推理一直是模型训练中一个比较冷门的方面，不过这次研究证明了因果推理在Transformer领域也是一个可行的方案。探索因果推理的世界不仅揭示了人工智能领域的一个重要方面，而且强调了如何通过创新的方法，如公理训练，来增强机器的学习能力。本博客深入研究了因果推理的研究进展，尤其是Transformer模型在学习因果规则方面的潜力。我们看到了通过演示因果公理，模型能够推断出新的因果关系，并在多种场景下展现出令人鼓舞的泛化能力。

2024-07-16 15:11:29 1114

原创 Deepmind发布新方法JEST：训练时间减少13倍，算力需求节省90%

其次是训练时间长，OpenAI用了13万亿个token训练出了GPT-4，用了25000个A100训练了90到100天，而且利用率在32%到36%之间，故障数量过多也是极低利用率的原因，这会导致需要重新从之前的检查点开始训练。最近Google的人工智能团队发布了全新的数据训练方法——JEST，这种训练方法能够让训练时间减少13倍，让所消耗的算力降低90%，这无疑对AI领域是一个巨大的好消息，具体原因将在下文中具体展示。预处理的目的是减少模型需要处理的数据复杂性，使模型能够更好地学习文本的语义。

2024-07-13 11:51:21 1279

原创浦语灵笔InternLM2.5-7B发布，在数学推理方面超越 Llama3 和 Gemma2-9B

浦语·灵笔2.5是基于书生·浦语2大语言模型研发的突破性的图文多模态大模型，仅使用 7B LLM 后端就达到了 GPT-4V 级别的能力。浦语·灵笔2.5使用24K交错的图像-文本上下文进行训练，通过RoPE外推可以无缝扩展到96K长的上下文。这种长上下文能力使浦语·灵笔2.5在需要广泛输入和输出上下文的任务中表现出色其具有以下特性：卓越的推理性能：在数学推理方面取得了同量级模型最优精度，超越了 Llama3 和 Gemma2-9B。

2024-07-09 19:42:18 1166

原创骁龙X Elite发布，Windows on Arm再添新成员

自古以来，Windows笔记本续航时间过短的问题一直存在，而伴随着Apple silicon中出现桌面端处理器M系列，这个问题无疑被放大了，越来越多的用户或媒体开始将笔记本续航的标杆视为MacBook。

2024-07-07 19:19:51 1135

原创 Google推出Gemma 2.0，Gemma家族迎来全新一员

自从bard后，Gemini家族成为了Google公司的当家大模型，不过Google为了给开源社区贡献创新，于是用Gemini模型的相同研究和技术构建了Gemma，Gemma这个名字反映了拉丁语“gemma”，意思是宝石，以支持开发人员创新，促进协作，并指导负责任地使用Gemma模型。GemmaGeminigemma------摘自不仅只有Gemma，Google还在其基础上衍生出了CodeGemma、RecurrentGemma和PaliGemma。

2024-07-06 22:15:50 1634 1

CodeMicheal的博客

原创大模型集体翻车：大模型的推理原理

原创 67M大模型比肩万亿参数的GPT-4，微软MIT等破解transformer密码

原创 Deepmind发布新方法JEST：训练时间减少13倍，算力需求节省90%

原创浦语灵笔InternLM2.5-7B发布，在数学推理方面超越 Llama3 和 Gemma2-9B

原创骁龙X Elite发布，Windows on Arm再添新成员

原创 Google推出Gemma 2.0，Gemma家族迎来全新一员

空空如也

空空如也

原创 大模型集体翻车：大模型的推理原理

原创 67M大模型比肩万亿参数的GPT-4，微软MIT等破解transformer密码

原创 Deepmind发布新方法JEST：训练时间减少13倍，算力需求节省90%

原创 浦语灵笔InternLM2.5-7B发布，在数学推理方面超越 Llama3 和 Gemma2-9B

原创 骁龙X Elite发布，Windows on Arm再添新成员

原创 Google推出Gemma 2.0，Gemma家族迎来全新一员

空空如也

空空如也

原创大模型集体翻车：大模型的推理原理

原创浦语灵笔InternLM2.5-7B发布，在数学推理方面超越 Llama3 和 Gemma2-9B

原创骁龙X Elite发布，Windows on Arm再添新成员