特别说明一下Kaggle 在计算得分的时候,有Public Leaderboard (LB)和 Private LB 之分。具体而言,参赛选手提交整个测试集的预测结果,Kaggle 使用测试集的一部分计算得分和排名,实时显示在 Public LB上,用于给选手提供及时的反馈和动态展示比赛的进行情况;测试集的剩余部分用于计算参赛选手的最终得分和排名,此即为 Private LB,在比赛结束后会揭晓。用于计算 Public LB 和 Private LB 的数据有不同的划分方式,具体视比赛和数据的类型而定,一般有随机划分,按时间划分或者按一定规则划分。大家可以合理利用Public Leaderboard的排名和反馈来适当调整自己的策略,但是不要太过依赖Public Leaderboard,有些时候它的数据分布和Private Leaderboard会有差异,不要在Public Leaderboard上过拟合哦,还是好好利用你的validation set吧,以便得到更好的泛化能力。
感谢Chi Yu's Blog的解释:
我提交过,已经搞懂了,意思就是:
kaggle给的测试集中包含AB两部分,
但是不告诉你哪部分是A,哪部分是B.
要求你按次序提交这个测试集每条数据的预测结果.
提交后,因为你是按次序提交的,所以kaggle服务器自己知道哪些序号对应的数据结果传给private LB,
哪些传给public LB.
比赛途中,只让看public LB,为了防止参赛者预测结果不具备普适性,参赛结果以private LB为准.