机器学习
文章平均质量分 84
GrowingBrain
生命不息,学习不止!
展开
-
【Datawhale|天池】心跳信号分类预测 (5) - 模型融合
目录融合方法分类关于 stacking 的补充资料stacking 和 blending 的区别经验总结参考资料融合方法分类模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。 简单加权融合: 回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean); 分类:投票(Voting) 综合:排序融合(Rank averaging),log融合 stack.转载 2021-03-29 01:35:48 · 210 阅读 · 0 评论 -
【Datawhale|天池】心跳信号分类预测 (3) - 特征工程 ☞ tsfresh 时序特征提取
目录导入包读取数据数据预处理使用 tsfresh 提取特征References导入包import pandas as pdimport numpy as npimport tsfresh as tsffrom tsfresh import extract_features, select_featuresfrom tsfresh.utilities.dataframe_functions import impute读取数据# 数据读取data_train = pd.read_csv("d原创 2021-03-23 00:11:56 · 603 阅读 · 1 评论 -
【Datawhale|天池】心跳信号分类预测 (1) - Baseline
Datawhale 和天池联合举办了【零基础入门数据挖掘-心跳信号分类预测】的入门赛事,比赛链接:https://tianchi.aliyun.com/competition/entrance/531883/introduction数据的读取首先,需要从比赛官网下载数据。假设就放在 data 目录下,加载数据:import pandas as pdimport numpy as nptrain = pd.read_csv('data/train.csv')test = pd.read_cs原创 2021-03-17 00:41:47 · 279 阅读 · 0 评论 -
为什么扩大数据集可能导致分类效果下降?
本文目录0. 说明1. 问题背景2. 原因分析2.1 有没有可能是因为新数据的标签不够准确?2.2 是不是因为数据分布发生了变化?3. 举个栗子4. (强行)理论解释4.1 一种解释4.2 另一种解释5. 结论0. 说明由于是商业项目,一些数据不方便公开,但不影响文中列出的结果&结论,请谅解;若发现问题,或者有任何问题想交流,欢迎留言哦~1. 问题背景最近在做一个文本分类任务,遇到一个现象:在扩大了数据集之后,模型的分类准确率反而下降了,比较严重一个模型是下降了7个百分点左右。这很违原创 2020-08-09 23:31:53 · 12616 阅读 · 12 评论