天池大赛-心跳信号分类预测：建模与调参

最新推荐文章于 2024-07-31 14:30:10 发布

Felixy_97

最新推荐文章于 2024-07-31 14:30:10 发布

阅读量568

点赞数 1

文章标签： python 机器学习数据分析

本文链接：https://blog.csdn.net/Felix_yf/article/details/115216191

版权

该博客介绍了参加天池大赛的心跳信号分类预测项目，从逻辑回归、树模型到集成模型的建模过程。文章详细讲解了各类模型的优缺点，调参方法包括贪心调参、网格搜索和贝叶斯优化，并提供了LightGBM的调参示例。最后，作者总结了在大数据集上模型调参的经验。

摘要由CSDN通过智能技术生成

比赛地址：零基础入门数据挖掘-心跳信号分类预测
参考资料：由DataWhale开源的学习资料

1 内容介绍

逻辑回归模型：
- 理解逻辑回归模型；
- 逻辑回归模型的应用；
- 逻辑回归的优缺点；
树模型：
- 理解树模型；
- 树模型的应用；
- 树模型的优缺点；
集成模型
- 基于bagging思想的集成模型
  - 随机森林模型
- 基于boosting思想的集成模型
  - XGBoost模型
  - LightGBM模型
  - CatBoost模型
模型对比与性能评估：
- 回归模型/树模型/集成模型；
- 模型评估方法；
- 模型评价结果；
模型调参：
- 贪心调参方法；
- 网格调参方法；
- 贝叶斯调参方法；

2 代码示例

2.1 导入相关库

import pandas as pd
import numpy as np
from sklearn.metrics import f1_score

import os
import seaborn as sns
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings("ignore")

2.2 读取数据

reduce_mem_usage 函数通过调整数据类型，帮助我们减少数据在内存中占用的空间

def reduce_mem_usage(df):
    start_mem = df.memory_usage().sum() / 1024**2 
    print('Memory usage of dataframe is {:.2f} MB'.format(start_mem))
    
    for col in df.columns:
        col_type = df[col].dtype
        
        if col_type != object:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)  
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
        else:
            df[col] = df[col].astype('category')

    end_mem = df.memory_usage().sum() / 1024**2 
    print('Memory usage after optimization is: {:.2f} MB'.format(end_mem))
    print('Decreased by {:.1f}%'.format(100 * (start_mem - end_mem) / start_mem))
    
    return df

# 读取数据
data = pd.read_csv('data/train.csv')
# 简单预处理
data_list = []
for items in data.values:
    data_list.append([items[0]] + [float(i) for i in items[1].split(',')] + [items[2]])

data = pd.DataFrame(np.array(data_list))
data.columns = ['id'] + ['s_'+str(i) for i in range(len(data_list[0])-2)] + ['label']

data = reduce_mem_usage(data)

Memory usage of dataframe is 157.93 MB
Memory usage after optimization is: 39.67 MB
Decreased by 74.9%

2.3 简单建模

建模之前的预操作

from sklearn.model_selection import KFold
# 分离数据集，方便进行交叉验证
X_train = data.drop(['id','label'], axis=1)
y_train = data['label']

# 5折交叉验证
folds = 5
seed = 2021
kf = KFold(n_splits=folds, shuffle=True, random_state=seed)

因为树模型中没有f1-score评价指标，所以需要自定义评价指标，在模型迭代中返回验证集f1-score变化情况。

def f1_score_vali(preds, data_vali):
    labels = data_vali.get_label()
    preds = np.argmax(preds.reshape(4, -1), axis=

最低0.47元/天解锁文章

Felixy_97

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
天池大赛-心跳信号分类预测：建模与调参

比赛地址：零基础入门数据挖掘-心跳信号分类预测参考资料：由DataWhale开源的学习资料1 学习目标2 内容介绍逻辑回归模型：理解逻辑回归模型；逻辑回归模型的应用；逻辑回归的优缺点；树模型：理解树模型；树模型的应用；树模型的优缺点；集成模型基于bagging思想的集成模型随机森林模型基于boosting思想的集成模型XGBoost模型LightGBM模型CatBoost模型模型对比与性能评估：回归模型/树模型/集成模型；.
复制链接

扫一扫