来源:datawhale组队学习
队伍:带带菜菜吧
赛题理解
题目要求:
1.根据“心电图感应”数据预测不同的心跳信号
2.心跳信号对应正常病例以及受不同心率不齐和心肌梗影响的病例
数据集总共超过20万,主要为1列心跳信号序列数据
抽取10万条作为训练集,2万条作为测试集A,2万条测试集B
对心跳信号类别(label)信息进行脱敏(个人理解就是换成普通类别,不是如心脏病等常见敏感词)。
baseline学习
通过juypter lab按照baseline里代码,分模块运行,了解了项目代码书写大致流程:
- 导入科学工具包(因为自己以前包只需要numpy、pandas、matplotlib、sklearn,所以在运行baseline代码时,需要安装不少其他未见的包,认识及简单学习,后见附录,有简单介绍及参看链接学习)
- 读取数据
- 数据预处理
- 训练数据、测试数据准备
- 模型训练
- 预测结果
附录
Lightgbm(lgb) | LightGBM是个快速的,分布式的,高性能的基于决策树算法的梯度提升框架。可用于排序,分类,回归以及很多其他的机器学习任务中。
来自 <https://blog.csdn.net/huacha__/article/details/81057150>
| 其他优势及使用参考下文 <https://zhuanlan.zhihu.com/p/52583923> |
Xgboost() | XGBoost全名叫(eXtreme Gradient Boosting)极端梯度提升,经常被用在一些比赛中,其效果显著。它是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包。XGBoost 所应用的算法就是 GBDT(gradient boosting decision tree)的改进,既可以用于分类也可以用于回归问题中。
来自 <https://www.cnblogs.com/zongfa/p/9324684.html>
| 其他参考 https://www.cnblogs.com/mantch/p/11164221.html
|
catboost | CatBoost是一种基于对称决策树(oblivious trees)为基学习器实现的参数较少、支持类别型变量和高准确性的GBDT框架,主要解决的痛点是高效合理地处理类别型特征,这一点从它的名字中可以看出来,CatBoost是由Categorical和Boosting组成。此外,CatBoost还解决了梯度偏差(Gradient Bias)以及预测偏移(Prediction shift)的问题,从而减少过拟合的发生,进而提高算法的准确性和泛化能力。
来自 <https://zhuanlan.zhihu.com/p/102540344>
| 其他参考 https://cloud.tencent.com/developer/article/1546808
https://baijiahao.baidu.com/s?id=1665393378661343624&wfr=spider&for=pc |
tqdm
| 是Python中专门用于进度条美化的模块,通过在非while的循环体内嵌入tqdm,可以得到一个能更好展现程序运行过程的提示进度条 https://blog.csdn.net/weixin_36670529/article/details/88868032 | |
seaborn | 是一种基于matplotlib的图形可视化python libraty。它提供了一种高度交互式界面,便于用户能够做出各种有吸引力的统计图表。
来自 <https://zhuanlan.zhihu.com/p/24464836>
| |
Pandas_profiling | 这个库只需要一行代码就可以生成数据EDA报告。 pandas_profiling基于pandas的DataFrame数据类型,可以简单快速地进行探索性数据分析。
来自 <https://zhuanlan.zhihu.com/p/85967505>
|
|
tsfresh | 时间序列特征处理工具 https://blog.csdn.net/xindoo/article/details/79177378 |
|