大模型评测指标与方法

中文大模型评测和英文评测方法是不一致的,原因:

第一、数据集的差异性。中文和英文的文本数据集在种类、规模、质量等方面存在很大的差异,需要针对中文特点开发相应的数据集,以确保评测结果的准确性和公正性。

第二、语言结构和语法的差异。例如中文是一种“主谓宾”结构的语言,而英文则是“主语动词宾语”结构的语言。这些差异导致了中英文之间在语言处理任务上存在很大的区别,需要不同的评测标准和方法。

第三、中文词汇量和歧义性。中文的词汇量非常大,而且存在很多歧义性,需要更复杂的处理方法和技术,如分词、词性标注、命名实体识别等。

大模型如何评测主观问题,有什么方法?

如果我们要评测出现幻觉现象,要尽可能的少出现数学题,因为这样当模型算错时候,不知道是出于对逻辑的理解错误还是出于模型出现幻觉,所以问题在设置时候要尽可能简单但是多面。

可用的数据集:truthful_qa · Datasets at Hugging Face

类似这种问题,可以去评判。

部分来源:

为何同一个中文大模型,不同评测标准打分差异大?|见智研究_腾讯新闻 (qq.com)

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值