---------------------------------------------------------------笔记------------------------------------------------------------
RAG技术概述
RAG(Retrieval Augmented Generation)技术,通过检索与用户输入相关的信息片段,并结合外部知识库来生成更准确、更丰富的回答。解决 LLMs 在处理知识密集型任务时可能遇到的挑战, 如幻觉、知识过时和缺乏透明、可追溯的推理过程等。提供更准确的回答、降低推理成本、实现外部记忆。
RAG技术通过向量数据库,将数据进行向量化表示,对相似向量值进行匹配
向量数据库很重要,就是我们说的知识库,这一领域其实已经非常成熟,最早做搜索引擎时就运用到向量数据库的概念。
RAG与Finetune是两种主流的模型优化方式,两者适用不同的场景。
RAG时候非参数记忆,利用外部知识库可以直接提供实时更新的信息。Finetune则是参数记忆需要在微调过程中不断进行标注,但是很可能过拟合。
---------------------------------------------------------------作业------------------------------------------------------------
本次作业根据homework.md要求对茴香豆的RAG、知识库功能进行实验。
参考视频:零编程玩转大模型,学习茴香豆部署群聊助手
实验逻辑:
通过选择“中国工程院院士孙凝晖给正国级、副国级讲课的万字长稿《人工智能与智能计算的发展》”作为知识库,测试知识库的学习能力和拒答功能
实验步骤复现:
1、上传以word形式进行知识库上传文件名“AI授课.docx”
2、通过提问“你好”测试拒答流程是否正常——提示“这不是个问题”,测试通过
3、通过提问计算技术的发展历史分为哪四个阶段,进行知识库检索测试——提示参考文档“AI授课”,并且回答正确,测试通过
4、通过分别设置“计算技术的发展历史分为几个阶段?”、“收到请回复”作为正反例测试拒答流程是否可编辑。——经过测试,当设置“计算技术的发展历史分为几个阶段?”为拒答流程以后,仍然对问题作出了回答。
5、对文中所提的概念进行错误提问时,测试是否能识别错误并对我更正。
原文:现代计算技术的发展大致可以划分为三个时代。IT1.0又称电子计算时代(1950-1970),基本特征是以“机”为中心。计算技术的基本架构形成,随着集成电路工艺的进步,基本计算单元的尺度快速微缩,晶体管密度、计算性能和可靠性不断提升,计算机在科学工程计算、企业数据处理中得到了广泛应用。
IT2.0又称网络计算时代(1980-2020),以“人”为中心。互联网将人使用的终端与后台的数据中心连接,互联网应用通过智能终端与人进行交互。以亚马逊等为代表的互联网公司提出了云计算的思想,将后台的算力封装成一个公共服务租借给第三方用户,形成了云计算与大数据产业。
IT3.0又称智能计算时代,始于2020年,与IT2.0相比增加了“物”的概念,即物理世界的各种端侧设备,被数字化、网络化和智能化,实现“人-机-物”三元融合。智能计算时代,除了互联网以外,还有数据基础设施,支撑各类终端通过端边云实现万物互联,终端、物端、边缘、云都嵌入AI,提供与ChatGPT类似的大模型智能服务,最终实现有计算的地方就有AI智能。智能计算带来了巨量的数据、人工智能算法的突破和对算力的爆发性需求。
作为提问内容,测试对该知识库学习的能力。
测试结果——对我提出的错误理论没有进行更正,并且赞同我的观点,但实际上IT1.0在文中明确写了称为电子计算时代。这点出现了明显错误,已进行提交。