自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 讨论:单张4090能运行的最强开源大模型?

这88G的显存足以支持全精度的Yi-1.5-34B模型,或者在Qwen2-72B的量化模型中实现更长的上下文。这些显卡的128G显存不仅能够运行int8量化的Qwen2-72B模型,还能利用HBM显存和张量并行技术,提供比单块4090 48G更快的性能(假设存在这样的型号)。GPU的真正优势在于其对prompt的评估速度,也就是处理输入的速度。例如,使用12代i7 CPU运行7亿参数的模型,速度大约是每秒10个token,而使用2060 GPU可以达到每秒30个token,两者之间的差距并不大。

2024-09-14 14:12:52 110

原创 OpenAI全新发布o1模型 - 人类即将迈入了下一个时代。

在 2024 年的国际信息学奥林匹克竞赛(IOI)中,"o1" 在有限的提交次数下取得了 213 分,如果放宽提交次数限制,它的得分甚至可以达到 362.14 分,足以获得金牌。目前,"o1" 的思考时间仅为一分钟,但设想一下,如果它达到了真正的通用人工智能(AGI)水平,那么它的思考速度可能会变得更慢,而这种慢思考可能会带来意想不到的惊喜。OpenAI 表示,这款新模型在技术上实现了重大突破,与以往的大型模型有着根本的不同,因此它被视为一个全新的系列,从 "1" 开始编号。

2024-09-14 12:03:42 286

原创 史上最强开源模型llama3.1

在模型设计上,Meta选择了传统的仅解码器(decoder-only)transformer架构,而非更为复杂的混合专家模型,这样做是为了确保训练过程的稳定性。Meta公司对Llama 3.1进行了深入的综合评估,测试范围广泛,包括超过150个不同的基准数据集,这些测试覆盖了众多语言和多样化的任务类型。此外,他们还采用了迭代式的后训练策略,每一轮都结合了监督微调和直接偏好优化技术,利用高质量的合成数据来持续提升模型的性能。在训练数据的准备上,Meta通过优化数据处理和筛选机制,显著提升了数据的整体质量。

2024-09-13 13:54:16 265

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除