江西省开放数据创新应用大赛vte赛道

最新推荐文章于 2024-08-28 10:34:03 发布

不要摆烂QAQ

最新推荐文章于 2024-08-28 10:34:03 发布

阅读量2.3k

点赞数 4

分类专栏：机器学习文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/qq_52240350/article/details/121592122

版权

博主参加了江西开放数据创新应用大赛，分享了比赛经验，包括数据预处理、特征工程、模型选择与训练、评估与优化。重点介绍了利用word2vec进行文本特征处理和SMOTE算法解决数据不平衡问题。

摘要由CSDN通过智能技术生成

大家好，我是小k，好久没写博客了，从五月份开始接触机器学习，经过了一段时间沉淀，在11月份第一次参加了意义上的大数据比赛，下面想对这次比赛学习到的东西做个总结QAQ。

比赛地址传送门：

江西开放数据创新应用大赛 (jiangxi.gov.cn)

1：导入相应包与数据

import seaborn as sns
import lightgbm as lgb
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
from sklearn.model_selection import KFold
from catboost import CatBoostClassifier, Pool
from sklearn.metrics import mean_squared_error, f1_score, accuracy_score
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split

train = pd.read_excel(r'C:\Users\wzk\Desktop\train.xlsx')
test = pd.read_excel(r'C:\Users\wzk\Desktop\predict.xlsx')
df_features = train.append(test)

2：观察数据集

#检查数据各列的缺失占比情况
df1 = (train.shape[0] - train.count())/train.shape[0]
df1[0:20]
唯一标识        0.000000
flag        0.000000
总评分         0.000000
住院号         0.000000
住院次数        0.000000
性别          0.000000
民族          0.000000
身高          0.000000
体重          0.004243
心率          0.000542
呼吸          0.002167
收缩压         0.001083
舒张压         0.001806
诊断          0.000000
3P试验        0.981943
C反应蛋白       0.939689
D-二聚体       0.213344
α-淀粉酶       0.972824
α-羟丁酸脱氢酶    0.740339
α羟丁酸脱氢酶     0.803720
dtype: float64

#检查数据类型 int/float/object

df_features.select_dtypes(include=['int']).columns
Index(['住院次数'], dtype='object')

df_features.select_dtypes(include=['float']).columns
Index(['flag', '总评分', '心率', '呼吸', '收缩压', '舒张压', 'D-二聚体', 'α-淀粉酶', 'α-羟丁酸脱氢酶',
       'β2-微球蛋白', '不饱和铁结合力', '凝血酶原时间比率', '凝血酶原时间活动度', '国际标准化比率', '尿酸', '总胆红素',
       '总蛋白', '总铁结合力', '果糖胺', '氯', '球蛋白', '白球比',

最低0.47元/天解锁文章

不要摆烂QAQ

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
6
评论
江西省开放数据创新应用大赛vte赛道

大家好，我是小k，好久没写博客了，从五月份开始接触机器学习，经过了一段时间沉淀，在11月份第一次参加了意义上的大数据比赛，下面想对这次比赛学习到的东西做个总结QAQ。比赛地址传送门：江西开放数据创新应用大赛 (jiangxi.gov.cn)1：导入相应包与数据import seaborn as snsimport lightgbm as lgbimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.prepr..
复制链接

扫一扫