LiuSid7-CSDN博客

原创讨论：单张4090能运行的最强开源大模型？

这88G的显存足以支持全精度的Yi-1.5-34B模型，或者在Qwen2-72B的量化模型中实现更长的上下文。这些显卡的128G显存不仅能够运行int8量化的Qwen2-72B模型，还能利用HBM显存和张量并行技术，提供比单块4090 48G更快的性能（假设存在这样的型号）。GPU的真正优势在于其对prompt的评估速度，也就是处理输入的速度。例如，使用12代i7 CPU运行7亿参数的模型，速度大约是每秒10个token，而使用2060 GPU可以达到每秒30个token，两者之间的差距并不大。

2024-09-14 14:12:52 110

原创 OpenAI全新发布o1模型 - 人类即将迈入了下一个时代。

在 2024 年的国际信息学奥林匹克竞赛（IOI）中，"o1" 在有限的提交次数下取得了 213 分，如果放宽提交次数限制，它的得分甚至可以达到 362.14 分，足以获得金牌。目前，"o1" 的思考时间仅为一分钟，但设想一下，如果它达到了真正的通用人工智能（AGI）水平，那么它的思考速度可能会变得更慢，而这种慢思考可能会带来意想不到的惊喜。OpenAI 表示，这款新模型在技术上实现了重大突破，与以往的大型模型有着根本的不同，因此它被视为一个全新的系列，从 "1" 开始编号。

2024-09-14 12:03:42 286

原创史上最强开源模型llama3.1

在模型设计上，Meta选择了传统的仅解码器（decoder-only）transformer架构，而非更为复杂的混合专家模型，这样做是为了确保训练过程的稳定性。Meta公司对Llama 3.1进行了深入的综合评估，测试范围广泛，包括超过150个不同的基准数据集，这些测试覆盖了众多语言和多样化的任务类型。此外，他们还采用了迭代式的后训练策略，每一轮都结合了监督微调和直接偏好优化技术，利用高质量的合成数据来持续提升模型的性能。在训练数据的准备上，Meta通过优化数据处理和筛选机制，显著提升了数据的整体质量。

2024-09-13 13:54:16 265

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 讨论：单张4090能运行的最强开源大模型？

原创 OpenAI全新发布o1模型 - 人类即将迈入了下一个时代。

原创 史上最强开源模型llama3.1

空空如也

空空如也

原创讨论：单张4090能运行的最强开源大模型？

原创史上最强开源模型llama3.1