心电图心跳信号多分类预测——赛题理解和baseline学习

最新推荐文章于 2021-03-29 14:12:54 发布

程序员德鲁

最新推荐文章于 2021-03-29 14:12:54 发布

阅读量421

点赞数 1

分类专栏：课程

本文链接：https://blog.csdn.net/andelu1996/article/details/114849555

版权

课程专栏收录该内容

14 篇文章 1 订阅

订阅专栏

来源：datawhale组队学习

队伍：带带菜菜吧

赛题理解

题目要求：

1.根据“心电图感应”数据预测不同的心跳信号

2.心跳信号对应正常病例以及受不同心率不齐和心肌梗影响的病例

数据集总共超过20万，主要为1列心跳信号序列数据

抽取10万条作为训练集，2万条作为测试集A，2万条测试集B

对心跳信号类别（label）信息进行脱敏（个人理解就是换成普通类别，不是如心脏病等常见敏感词）。

baseline学习

通过juypter lab按照baseline里代码，分模块运行，了解了项目代码书写大致流程：

导入科学工具包（因为自己以前包只需要numpy、pandas、matplotlib、sklearn，所以在运行baseline代码时，需要安装不少其他未见的包，认识及简单学习，后见附录，有简单介绍及参看链接学习）
读取数据
数据预处理
训练数据、测试数据准备
模型训练
预测结果

附录

Lightgbm（lgb）	LightGBM是个快速的，分布式的，高性能的基于决策树算法的梯度提升框架。可用于排序，分类，回归以及很多其他的机器学习任务中。来自 <https://blog.csdn.net/huacha__/article/details/81057150>	其他优势及使用参考下文 <https://zhuanlan.zhihu.com/p/52583923>
Xgboost()	XGBoost全名叫（eXtreme Gradient Boosting）极端梯度提升，经常被用在一些比赛中，其效果显著。它是大规模并行boosted tree的工具，它是目前最快最好的开源boosted tree工具包。XGBoost 所应用的算法就是 GBDT（gradient boosting decision tree）的改进，既可以用于分类也可以用于回归问题中。来自 <https://www.cnblogs.com/zongfa/p/9324684.html>	其他参考 https://www.cnblogs.com/mantch/p/11164221.html https://zhuanlan.zhihu.com/p/83901304
catboost	CatBoost是一种基于对称决策树（oblivious trees）为基学习器实现的参数较少、支持类别型变量和高准确性的GBDT框架，主要解决的痛点是高效合理地处理类别型特征，这一点从它的名字中可以看出来，CatBoost是由Categorical和Boosting组成。此外，CatBoost还解决了梯度偏差（Gradient Bias）以及预测偏移（Prediction shift）的问题，从而减少过拟合的发生，进而提高算法的准确性和泛化能力。来自 <https://zhuanlan.zhihu.com/p/102540344>	其他参考 https://cloud.tencent.com/developer/article/1546808 https://baijiahao.baidu.com/s?id=1665393378661343624&wfr=spider&for=pc
tqdm	是Python中专门用于进度条美化的模块，通过在非while的循环体内嵌入tqdm，可以得到一个能更好展现程序运行过程的提示进度条 https://blog.csdn.net/weixin_36670529/article/details/88868032	https://blog.csdn.net/zkp_987/article/details/81748098
seaborn	是一种基于matplotlib的图形可视化python libraty。它提供了一种高度交互式界面，便于用户能够做出各种有吸引力的统计图表。来自 <https://zhuanlan.zhihu.com/p/24464836>	https://zhuanlan.zhihu.com/p/24464836
Pandas_profiling	这个库只需要一行代码就可以生成数据EDA报告。 pandas_profiling基于pandas的DataFrame数据类型，可以简单快速地进行探索性数据分析。来自 <https://zhuanlan.zhihu.com/p/85967505>
tsfresh	时间序列特征处理工具 https://blog.csdn.net/xindoo/article/details/79177378

程序员德鲁

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
心电图心跳信号多分类预测——赛题理解和baseline学习

来源：datawhale组队学习队伍：带带菜菜吧赛题理解题目要求：1.根据“心电图感应”数据预测不同的心跳信号2.心跳信号对应正常病例以及受不同心率不齐和心肌梗影响的病例数据集总共超过20万，主要为1列心跳信号序列数据抽取10万条作为训练集，2万条作为测试集A，2万条测试集B对心跳信号类别（label）信息进行脱敏（个人理解就是换成普通类别，不是如心脏病等常见敏感词）。baseline学习通过juypter lab按照baseline里代码，分模块运行，了..
复制链接

扫一扫