FYI | kaggle 基于fMRI的prediction competition(第一名 $12000)

a3b7b0d60341a27d530f3c0c2856a8c8.png

在传统的数据分析中,无论使用什么样的cross validation, 研究者都很难避免over fitting。比如说你有1000被试的数据预测某个变量,你做了一个10-fold cross validation,然后通过各种调参得到了一个最好的模型,测的准确率可以达到80%。这样的问题在于你始终使用的是你的样本,你无法保证在另外一批样本上你的模型依然可以有很好的准确率。­­即使你使用了类似于kaggle的模式, 一开始就hold 一部分数据作为最后的测试集(比如200个被试), 然后用剩下的800个被试的数据建立模型;或者你也可以用你的1000个被试的数据建立模型,然后想办法从其他实验室找到另外500个被试的数据测试模型的表现。作为目前发paper来说,可以生产很多的paper,然而真正generalization不得而知。Kaggle等数据平台提供了这样的机会,是骡子模型还是马模型,拿出来溜溜。所有人都有测试集的access,提交预测,model的好坏一目了然。此外一个kaggle项目的成本大概是招募一个post-dog的,不知道是几分之几,不仅仅是钱的问题,而且还省去了mentoring/hr等各种烦心事。怎么有点全民皆data scientist的赶脚。。

Kaggle在上周五开始了一个Research Prediction Competition,基于1)sMRI;2)FNC;3)IC-spatial maps预测年龄和4个匿名的变量。数据来源于UK Biobank。组织者来自The Tri-Institutional Georgia State University/Georgia Institute of Technology/Emory University Center for Translational Research in Neuroimaging and Data Science (TReNDS),第一名奖金$12000!

基本信息见kaggle传送门:https://www.kaggle.com/c/trends-assessment-prediction/overview

根据组织者的研究经历,目测匿名的变量可能和Schizophrenia有关,有一个很像是PNASS的total score 【此处纯属臆测,我居然还认真的看了文献,发现PNASS总分平均大概是50】。匿名变量是kaggle上的常规操作,目的是防止数据的leakage。但是我在想如果有人有UK Biobank的access,把年龄和有可能的变量拿出来match一下,找到了testing set的数据这个算不算leakage? 我想组织者事先应该考虑到了这么弱智的问题,比如他们说有2个sites,意味着可能有加入其他的数据。

Thought

SBM和FCN的数据储存在csv里,毫无疑问每个人都会用到。有一些starter的notebook不用spatial map已经达到0.16的score。因此spatial map也许能提供关键的信息。spatial是一个53x63x52x53的数据,每个人有53 个group ICA的component,硬刚的方法可以直接上CNN卷积神经网络,前提是你有HCP。。所以佛系的思路还是降维,我的想法是对于每一个component,卡一个阈值比如4.8,得到binary的map,然后被试间取并集,这样就可以得到group level的mask,提取特征值或者是平均数。

某个被试第22个IC的spatial map

4c7353a14aa0e2c4a7dd21751cf7bea9.png

此外,年龄是一个不可忽略的变量,假设他们预测的是两个symptom的维度话,不同年龄是否出现symptom可能是不同。此外在evaluation的时候age的权重是0.3,其他的四个变量也只是0.15。预测年龄的model已经比较成熟。因此也许可以根据年龄的预测调整其他变量的预测。既然两个测量用了两个维度,那么两个维度之间的关系也可以用于对预测值对微调,比如测试集中a-b的相关是0.2,预测的时候也许可以考虑保持他们的相关在0.2左右。

Anyway, 这些都是一些简单的想法,也可能misleading。有的feature也不一定会有用,设想最后的第一名根本没有用spatial map也不是没有可能。

Take home message:

  • 这是一件很肝的事情,不要不务正业。

  • 有很多这个方向的lab/phd/post-dog,不要有拿到奖金的幻想,重在参与

  • Kaggle提供了免费的服务器instance, 即使不想投入太多精力,把别人分享的notebook运行一下也是极好。

最后的鸡血

当你觉得浑身不舒服的时候就是你在进步的时候

。。当然泡个澡也许会有帮助841fda84549bc05ea29be89a009cac10.png


cbdd43fca07dc84f8b0f0a6bafcf402b.png

推荐阅读:

Brain Predicted Age (一)

Brain Predicted Age (二)

干货 | 自闭症预测 You can you up

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值