![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大模型
文章平均质量分 93
seetimee
这个作者很懒,什么都没留下…
展开
-
LLama 405B 技术报告解读
LLama 405B 技术报告解读果然传的消息都是真的,meta在24号凌晨发布了llama 3的405B版本,这次还是做一个技术报告解读。值得一提的是,在技术报告的开头,meta特意强调了一个 Managing complexity,大意是管控复杂度。为什么没用MoE却弄个405B的dense?为什么没用PPO只用DPO?meta给的解释是:Managing complexity,大意就是这样简单吧…评测结果如下,这个结果跟当初网上传的那个版本还是有一定出入的,没有到摁着GPT4o锤的程度。况原创 2024-07-25 09:07:29 · 1194 阅读 · 0 评论 -
书生·浦语2.5开源,推理能力再创新标杆
2024 年 7 月 3 日,上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书⽣·浦语2.5(InternLM2.5)。相比上一代模型,InternLM2.5 有三项突出亮点:推理能力大幅提升,在部分维度上甚至超越十倍量级的 Llama3-70B;支持 1M tokens 上下文,能够处理百万字长文;具有强大的自主规划和工具调用能力,比如可以针对复杂问题,搜索上百个网页并进行整合分析。原创 2024-07-07 23:28:21 · 1012 阅读 · 0 评论