天池精准医疗大赛——个人赛后总结(二)

本文主要介绍了机器学习中的特征选择方法,包括过滤式、包裹式和嵌入式选择。过滤式方法通过相关度衡量选择特征,适用于大规模数据;包裹式方法依据学习器性能选择特征,性能通常更好但计算复杂;嵌入式方法在学习过程中自动选择特征,结合模型训练。文章还提及在实际应用中如何结合先验知识和模型性能选择特征。
摘要由CSDN通过智能技术生成

一、特征选择说明


坊间常说,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。当你的数据分布足够好,特征工程足够好,即使用很简单的模型也能得到很好的结果。由此可见特征工程在机器学习中的重要程度不言而喻。一个关键特征(goldfeature)甚至可以让你前进几百名,特征选择(featureselection)也是这次比赛中我花费时间最多的部分。



二、特征选择的方法


(1)过滤式选择(Filter过滤式方法先对数据集进行特征选择,然后再训练学习期,特征选择过程与后续学习无关,这相当于先用特征选择过程对初始特征进行”过滤“,在用过滤后的特征来选择模型。过滤式特征选择的评价标准从数据集本身的内在性质获得,与特定的学习算法无关,因此具有具有较好的通用性。过滤式特征选择的研究者认为,相关度较大的特征或者特征自己会在分类器上获得较高的准确率,dash 和 liu把过滤式特征选择的评价标准分为四种,即距离度量,信息度量,关联度量以及一致性度量。具体的原理和内容可以在论坛上都有相关的资源,也感谢各位大佬的无私分享,这里就不再一一赘述,在做特征工程的时候大家也可以都尝试一下这些方法,选用效果较好的那一种。上篇文章我提到的所采用的皮尔逊系数属于一种关联度量,是过滤式选择的一种。
优点
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
天池精准医疗大赛糖尿病项目是天池平台主办的一个数据竞赛。糖尿病是一种慢性疾病,严重影响人们的健康和生活质量。为了寻找更好的糖尿病诊断和治疗方法,天池精准医疗大赛提供了一个开放的数据集供参赛者使用。 糖尿病的特点是血糖水平的异常升高,因此识别和预测糖尿病的关键在于建立一个有效的血糖预测模型。天池平台上的糖尿病数据集包含了大量的匿名化患者数据,如年龄、性别、血压、胰岛素水平等。参赛选手通过分析这些数据,可以建立一个机器学习模型,来预测一个人是否患有糖尿病或者糖尿病的严重程度。 GitHub是全球最大的开源社区平台之一,提供了一个便捷的代码托管和协作开发平台。在天池精准医疗大赛糖尿病项目中,参赛者可以使用GitHub存储和分享他们的代码、模型和解决方案。这不仅有助于开发者之间的交流和合作,还可以促进开源技术的共享和发展。 通过参与天池精准医疗大赛糖尿病项目,并在GitHub上分享相关代码和解决方案,有助于推动糖尿病诊断和治疗领域的发展。更多的开发者可以参与其中,分享他们的经验和观点,提供创新的解决方案,最终为糖尿病患者提供更准确、更个性化的诊疗服务。这个竞赛的举办和GitHub的使用,都进一步推动了精准医疗和人工智能在健康领域的应用,为我们的医疗事业带来了更多的希望和进步。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值