关注我的公众号YueTan进行交流探讨
欢迎关注数据比赛方案仓库 https://github.com/hongyingyue/Competition-solutions
本次比赛的目标是预测一组蛋白质的功能。您将开发一个模型,该模型根据蛋白质的氨基酸序列和其他数据进行训练。您的工作将帮助研究人员更好地了解蛋白质的功能,这对于发现细胞、组织和器官的工作方式非常重要。这也可能有助于开发针对各种疾病的新药和疗法。
-
预测列表包含蛋白质目标和 GO 术语之间的成对列表,然后是关系的概率估计
-
注意过拟合:这是一个前瞻性(即未来)的数据竞赛。测试数据中的许多蛋白质目前没有任何指定的功能。研究人员在比赛策划阶段发表的具有一项或多项功能的蛋白质将构成未来的测试集。最终排行榜分数将在比赛的策划阶段后计算
baseline
- https://www.kaggle.com/code/sergeifironov/t5embeds-calculation-only-few-samples
- https://www.kaggle.com/code/alexandervc/baseline-multilabel-to-multitarget-binary
把预测的go当作多类别标签,转化为二分类
解读
预训练
选用的预训练模型为: https://huggingface.co/Rostlab/prot_t5_xl_half_uniref50-enc
模型在原始蛋白质序列中进行训练,
模型
- Load train labels and select the most frequent ones