假设一个模型,被2bit量化,然后一直瞎说话,怎么办?你是不是应该评估一下这个模型的效果?
但是,大模型的评估是很复杂的,如果说小模型的测试就像体检,指标明确,那么大模型的评测就像高考,怎么考核,考核什么,分数线多少,都是需要仔细讨论的。可以想见的是,这是一个很难公正评价的事情,因此,引入了下面的介绍。
假设一个模型,被2bit量化,然后一直瞎说话,怎么办?你是不是应该评估一下这个模型的效果?
但是,大模型的评估是很复杂的,如果说小模型的测试就像体检,指标明确,那么大模型的评测就像高考,怎么考核,考核什么,分数线多少,都是需要仔细讨论的。可以想见的是,这是一个很难公正评价的事情,因此,引入了下面的介绍。