糖尿病遗传风险检测挑战赛

文章简介

这是我的Coggle 30 Days of ML 活动记录博客,活动地址: https://coggle.club/blog/30days-of-ml-202207

活动内容

在这里插入图片描述

任务1:报名比赛

步骤1 报名比赛

步骤2 下载比赛数据(点击比赛页面的赛题数据)

下载数据集
在这里插入图片描述

步骤3 解压比赛数据,并使用 pandas (熊猫) 进行读取;

利用pandas读取数据

import pandas as pd
data = pd.read_csv('比赛训练集.csv', encoding='gbk')
data.head()

运行结果:
在这里插入图片描述

步骤4 查看训练集和测试集字段类型,并将数据读取代码写到博客;

查看训练集和测试集字段类型

traindata.dtypes
testdata.dtypes

在这里插入图片描述

任务2

任务2:比赛数据分析

步骤1:统计字段的缺失值,计算缺失比例;

通过缺失值统计,训练集和测试集的缺失值分布是否一致?通过缺失值统计,有没有缺失比例很高的列?

步骤2:分析字段的类型;

有多少数值类型、类别类型?
你是判断字段类型的?
在博客中通过文字写出你的判断;

利用以下代码查看表格缺失值

traindata.isna().sum()
testdata.isna().sum()

在这里插入图片描述
在这里插入图片描述

可以看出,缺失都在舒张压字段

步骤3:计算字段相关性;

通过.corr()计算字段之间的相关性;

res = traindata.corr()
f,ax = plt.subplots(figsize=(20,9))
sns.heatmap(res,vmax=0.8,square=True,vmin=-1,annot=True)
ax.set_xticklabels(ax.get_xticklabels(), rotation=30)

在这里插入图片描述
对于目标标签,体重指数,肱三头肌皮褶厚度与糖尿病标签呈正相关,说明体重指数越大,体脂越高,得糖尿病的可能性越大;

任务三

我们考虑利用逻辑回归线性模型预测,但在预测之前,我们需要先对数据进行预处理

步骤1 预处理

因为数据中含有缺失值,所以我们考虑使用平均填充法,对缺失值进行填充。

from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
traindata['舒张压'].fillna(traindata['舒张压'].mean(),inplace=True)
testdata['舒张压'].fillna(testdata['舒张压'].mean(),inplace=True)

在逻辑回归之前,我们往往需要先对模型进行归一化处理,此处采用的是正态化处理。

ss = StandardScaler()
stdtraindata = ss.fit_transform(traindata)
stdtestdata = ss.fit_transform(testdata)

步骤2 训练与预测

在sklearn中,fit代表训练模型,predict代表预测,我们使用训练集数据进行训练,predict进行预测,并将结果保存到本地。

lr_clf = LogisticRegression()
# 用逻辑回归模型拟合构造的数据集
lr_clf = lr_clf.fit(stdtraindata, trainlabel) #其拟合方程为 y=w0+w1*x1+w2*x
res = lr_clf.predict(stdtestdata)
pd.Series(res).to_csv('结果.csv')

步骤3 提交结果

登录账号,并在比赛官网提交数据,注意要对文件的标题进行修改,否则无法返回分数。
在这里插入图片描述
在这里插入图片描述

结果如下,得分并不高。
在这里插入图片描述

任务4:特征工程(使用 pandas 完成)

步骤1:统计每个性别对应的【体重指数】、【舒张压】平均值

步骤2:计算每个患者与每个性别平均值的差异;

利用pandas的groupby函数得到分组的处理,完成步骤1和2
数据集操作如下
在这里插入图片描述

步骤3:在上述基础上将训练集20%划分为验证集,使用逻辑回归完成训练,精度是否有提高?

在这里插入图片描述
可以看到精度提高约8%,新的特征有利于逻辑回归效果的提升。

任务5:特征筛选

步骤1:使用树模型完成模型的训练,通过特征重要性筛选出Top5的特征;

在这里插入图片描述

步骤2:使用筛选出的特征和逻辑回归进行训练,在验证集精度是否有提高?

在这里插入图片描述

步骤3:如果有提高,为什么?如果没有提高,为什么?

可以看到利用训练集分出的0.2的验证集验证中,模型的精度提高到了0.81到0.82,模型精度提高了约百分之一,可以看到特征工剔除了相对不重要的特征,提高了模型的泛化性,简化了模型。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Go语言(也称为Golang)是由Google开发的一种静态强类型、编译型的编程语言。它旨在成为一门简单、高效、安全和并发的编程语言,特别适用于构建高性能的服务器和分布式系统。以下是Go语言的一些主要特点和优势: 简洁性:Go语言的语法简单直观,易于学习和使用。它避免了复杂的语法特性,如继承、重载等,转而采用组合和接口来实现代码的复用和扩展。 高性能:Go语言具有出色的性能,可以媲美C和C++。它使用静态类型系统和编译型语言的优势,能够生成高效的机器码。 并发性:Go语言内置了对并发的支持,通过轻量级的goroutine和channel机制,可以轻松实现并发编程。这使得Go语言在构建高性能的服务器和分布式系统时具有天然的优势。 安全性:Go语言具有强大的类型系统和内存管理机制,能够减少运行时错误和内存泄漏等问题。它还支持编译时检查,可以在编译阶段就发现潜在的问题。 标准库:Go语言的标准库非常丰富,包含了大量的实用功能和工具,如网络编程、文件操作、加密解密等。这使得开发者可以更加专注于业务逻辑的实现,而无需花费太多时间在底层功能的实现上。 跨平台:Go语言支持多种操作系统和平台,包括Windows、Linux、macOS等。它使用统一的构建系统(如Go Modules),可以轻松地跨平台编译和运行代码。 开源和社区支持:Go语言是开源的,具有庞大的社区支持和丰富的资源。开发者可以通过社区获取帮助、分享经验和学习资料。 总之,Go语言是一种简单、高效、安全、并发的编程语言,特别适用于构建高性能的服务器和分布式系统。如果你正在寻找一种易于学习和使用的编程语言,并且需要处理大量的并发请求和数据,那么Go语言可能是一个不错的选择。
Go语言(也称为Golang)是由Google开发的一种静态强类型、编译型的编程语言。它旨在成为一门简单、高效、安全和并发的编程语言,特别适用于构建高性能的服务器和分布式系统。以下是Go语言的一些主要特点和优势: 简洁性:Go语言的语法简单直观,易于学习和使用。它避免了复杂的语法特性,如继承、重载等,转而采用组合和接口来实现代码的复用和扩展。 高性能:Go语言具有出色的性能,可以媲美C和C++。它使用静态类型系统和编译型语言的优势,能够生成高效的机器码。 并发性:Go语言内置了对并发的支持,通过轻量级的goroutine和channel机制,可以轻松实现并发编程。这使得Go语言在构建高性能的服务器和分布式系统时具有天然的优势。 安全性:Go语言具有强大的类型系统和内存管理机制,能够减少运行时错误和内存泄漏等问题。它还支持编译时检查,可以在编译阶段就发现潜在的问题。 标准库:Go语言的标准库非常丰富,包含了大量的实用功能和工具,如网络编程、文件操作、加密解密等。这使得开发者可以更加专注于业务逻辑的实现,而无需花费太多时间在底层功能的实现上。 跨平台:Go语言支持多种操作系统和平台,包括Windows、Linux、macOS等。它使用统一的构建系统(如Go Modules),可以轻松地跨平台编译和运行代码。 开源和社区支持:Go语言是开源的,具有庞大的社区支持和丰富的资源。开发者可以通过社区获取帮助、分享经验和学习资料。 总之,Go语言是一种简单、高效、安全、并发的编程语言,特别适用于构建高性能的服务器和分布式系统。如果你正在寻找一种易于学习和使用的编程语言,并且需要处理大量的并发请求和数据,那么Go语言可能是一个不错的选择。
糖尿病是一种常见的慢性代谢性疾病,遗传因素在其发病过程中起着重要的作用。Python作为一种功能强大的编程语言,可以用来进行糖尿病遗传风险预测。 首先,我们需要收集研究对象的相关信息,包括年龄、性别、家族史、体重指数(BMI)、血压、血糖水平等。这些信息可以通过数据表格或者问卷的形式进行收集。 接下来,我们可以使用Python中的相关数据分析库,如pandas和numpy,对数据进行清洗和预处理。我们可以通过去除缺失值、异常值和离群点等方式,确保数据的准确性和完整性。同时,还可以使用数据可视化技术,如matplotlib和seaborn,将数据以图形的形式展示出来,帮助我们更好地理解数据的分布和关联关系。 然后,我们可以使用Python中的机器学习算法来建立糖尿病遗传风险预测模型。常用的机器学习算法包括逻辑回归、支持向量机、决策树等。我们可以根据数据的特征和需求选择合适的算法,并使用训练集对模型进行训练。 在模型训练完成后,我们可以使用测试集对模型进行评估和验证。通过计算准确率、精确率、召回率等指标,评估模型的性能,并根据需要进行调整和改进。 最后,我们可以使用经过验证的模型对新的个体进行糖尿病遗传风险预测。通过输入个体的相关信息,模型可以预测该个体患糖尿病风险程度。 总之,Python提供了丰富的数据分析和机器学习工具,可以帮助我们进行糖尿病遗传风险的预测。使用Python进行预测可以提高预测的准确性和效率,为糖尿病的预防和治疗提供科学依据和指导。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值