大模型评测指标与方法

最新推荐文章于 2024-06-20 14:34:37 发布

小小白2333

最新推荐文章于 2024-06-20 14:34:37 发布

阅读量913

点赞数

分类专栏：大模型文章标签：深度学习语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ajdidfj/article/details/133756751

版权

大模型专栏收录该内容

3 篇文章 0 订阅

订阅专栏

中文大模型评测和英文评测方法是不一致的，原因：

第一、数据集的差异性。中文和英文的文本数据集在种类、规模、质量等方面存在很大的差异，需要针对中文特点开发相应的数据集，以确保评测结果的准确性和公正性。

第二、语言结构和语法的差异。例如中文是一种“主谓宾”结构的语言，而英文则是“主语动词宾语”结构的语言。这些差异导致了中英文之间在语言处理任务上存在很大的区别，需要不同的评测标准和方法。

第三、中文词汇量和歧义性。中文的词汇量非常大，而且存在很多歧义性，需要更复杂的处理方法和技术，如分词、词性标注、命名实体识别等。

大模型如何评测主观问题，有什么方法？

如果我们要评测出现幻觉现象，要尽可能的少出现数学题，因为这样当模型算错时候，不知道是出于对逻辑的理解错误还是出于模型出现幻觉，所以问题在设置时候要尽可能简单但是多面。

可用的数据集：truthful_qa · Datasets at Hugging Face

类似这种问题，可以去评判。

部分来源：

为何同一个中文大模型，不同评测标准打分差异大？｜见智研究_腾讯新闻 (qq.com)

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
大模型评测指标与方法

第二、语言结构和语法的差异。例如中文是一种“主谓宾”结构的语言，而英文则是“主语动词宾语”结构的语言。如果我们要评测出现幻觉现象，要尽可能的少出现数学题，因为这样当模型算错时候，不知道是出于对逻辑的理解错误还是出于模型出现幻觉，所以问题在设置时候要尽可能简单但是多面。中文和英文的文本数据集在种类、规模、质量等方面存在很大的差异，需要针对中文特点开发相应的数据集，以确保评测结果的准确性和公正性。中文的词汇量非常大，而且存在很多歧义性，需要更复杂的处理方法和技术，如分词、词性标注、命名实体识别等。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。