书生·浦语开源一周年
核心技术
不断进行上面的步骤,数据驱动,数据质量很重要
高质量的数据合成数据
1、基于规则的数据构造
2、基于模型的数据扩充
3、基于反馈的数据生成
常规的方法:将文章分块,向量化,然后将问题分块,向量化,去匹配包含相关知识的文章块,然后通过Prompt去询问,让模型回答。(这样可能会丢失文章块的上下文关系,跨文档找逻辑可能会存在问题,原生的支持超长上下文的未来可能会替代RAG的一个方向)
基于规划和搜索解决复杂问题
全链路开源
工具
预训练
微调
评测
部署
智能体
大模型的局限:
1、最新信息和知识的获取
2、回复的可靠性
3、数学计算
4、工具使用和交互