开源InternLM2.5
2024年7月4号InternLM2.5开源,综合推理能力比InternLM2提高20%,支持100万字上下文,能够自主规划和搜索完成复杂任务。
核心技术思路
高质量合成数据
基于规则的数据构造
基于模型的数据扩充
基于反馈的数据生成
解决用户需求思路
用户需求——>问题分析——>思路路径拆解——>内容整合——>问题回复(多智能体协作、网页)
书生·浦语开源模型谱系
InternLM:
“1.8B 超轻量级,可用于端侧应用或者开发者快速学习上手”
“7B 模型轻便但性能不俗,为轻量级的研究和应用提供强力支撑”
“20B 模型的综合性能更为强劲,可以有效支持更加复杂的实际场景”
“102B 性能强大的闭源模型,典型场景表现接近GPT-4”
InternLM-XComposer(灵笔)、InternLM-Math(数学) InternLM-WQX(文曲星)
全链条
数据:书生·万卷
预训练:InternEvo(大规模训练,支持千卡、性能优化、软硬件生态良好、预训练+微调+RLHF全场景覆盖)
微调:XTuner(支持多种微调和偏好对齐算法,自动优化加速,适配多种硬件,能够处理千亿+百万下文的数据)
应用:MindSearch(思索式开源搜索应用)、Lagent(首个支持代码解释器的智能体框架)、MinerU(文档解析工具)、HuixiangDou(基于专业知识的群聊助手)
评测:OpenCompass(广泛应用于头部大模型企业和科研机构)(工具-基准-榜单)
部署:LMDeploy部署工具
全链条开源,与社区生态连接