大模型相关目录
大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步,扬帆起航。
- 大模型应用向开发路径:AI代理工作流
- 大模型应用开发实用开源项目汇总
- 大模型问答项目问答性能评估方法
方法1:普通评分
需要数据:
Quetion_data
{“id”: 115, “question”: “请问2021年绿岛风的无形资产值是多少元?”}
Anwser_data
{“id”: 115, “question”: “请问2021年绿岛风的无形资产值是多少元?”, “prompt”:{“ent_short_name”: “绿岛风”, “ent_name”: “广东绿岛风空气系统股份有限公司”, “year”: “2021”, “key_word”: “无形资产”, “无形资产”: “17037624.29元”, “prom_answer”:“17037624.29元”}, “answer”: [“绿岛风2021年的无形资产值是17037624.29元。”, “2021年绿岛风的无形资产为17037624.29元。”, “无形资产值是17037624.29元,属于绿岛风2021年的财务数据。”],“type”: “1”}
Submit_data
{“id”: 115, “question”: “2019年北京星网宇达科技股份有限公司电子信箱是什么?”, “answer”: “”}
评测方法:
看看问题是否有对应答案?
没答案的、答案不唯一:
查看年份是否在问题中 0.25
查看关键字组合是否出现在问题中 0.25
回答和问题的文本相似度 score*0.5
有答案的:
查看年份是否与预设年份一致 0.25
查看关键字组合是否与预设关键字重合 0.25
回答和答案的文本相似度 score*0.5
一共有四类问题
对于每一类问题的分值又有不同权重加权
finalScore = round((Score1 * 0.3 + Score2 * 0.4 + Score3_1 * 0.2 +
Score3_2 * 0.1), 4)
方法2:ELO评分
用一些其他的开源模型、API与我们所涉及的RAG大模型进行问答能力评比
同样采用普通评分,但评分并不直接作用于对大模型及其策略的能力评估上,而是作为elo机制地对比参照起到对比作用。
Elo的想法很简单,比大小。如果我们能用一个分数去评估选手的实力,甲2000分,乙1800分,2000比1800要大,那就说明甲的实力是要强于乙的。
但是,乙也有战胜甲的可能。因为甲可能在某场比赛中发挥失常,只发挥出了1800的水平,而乙发挥超常,达到了2000分的水平,这样乙就战胜了甲。
为了解决这个问题,我们可以不妨认为选手的发挥是服从正态分布的——比如甲服从平均值为2000的正态分布,就是在说他有极大多数时候的发挥水平都在2000附近,也有很低的可能到1800以下或者2200以上。这样,根据正态分布的公式,就能得到选手之间的预期胜率。这个公式本来是个比较难以计算的积分式,但是可以用非常简单的另一个近似公式计算。比如目前甲是1500分,乙是1600分。我们知道,甲乙对战,明显乙更容易占优势。 现在甲乙进行竞技,根据近似公式,
如果甲胜利了,甲将更新他的elo等级分为1520.5分,而乙的积分将掉到1579.5分,相当于扣除了乙的20.5分给甲。如果乙胜利了,将扣除甲的12分给乙,甲变为1488分,乙变为1612分。
而如果是实力相差悬殊的比赛,甲2000分对阵乙1200分,甲的预期胜率已经极度接近100%,那么他们的elo分不会发生任何变化。
如此,基于模型一样的初始分后,就可以不断进行模型间比较,不断的迭代更新模型得分。
方法3:选择题精确率度量
使用选择题数据集或自身根据已有数据构建问答数据集,通过选择题准确率的度量方式衡量大模型在某些方面的推理能力。
方法4:大模型度量
由于标准答案及大模型答案都属于文本内容,其度量任务完全可交给具备较高性能的大模型进行。