参考链接:https://github.com/datawhalechina/llm-universe/blob/main/docs/C5/
大语言模型的评估一般分为人工和简单自动评估,还可以用大模型来评估。对于不同的应用可能需要考虑多维度的评估标准。
优化生成部分
优化检索部分
相关代码TBC。。。
参考链接:https://github.com/datawhalechina/llm-universe/blob/main/docs/C5/
大语言模型的评估一般分为人工和简单自动评估,还可以用大模型来评估。对于不同的应用可能需要考虑多维度的评估标准。
相关代码TBC。。。