n-gram不足以识别污染 论文翻译:arxiv-2024.Deng.Investigating Data Contamination for Pre-training Language Models 中
数据污染一定程度上也是在判断模型是记住了还是学会了,记住了就是污染,学会了就不是污染。
大语言模型数据污染相关论文
id | 博客 | 论文名 | 中文 | github | b站 |
---|---|---|---|---|---|
1 | arxiv-2024 | Training on the Benchmark Is Not All You Need | 基准测试并非你所需的全部 | link | |
2 | ICLR-2024.O |