数据挖掘
文章平均质量分 69
小米不害怕
这个作者很懒,什么都没留下…
展开
-
数据挖掘——HeartbeatClassification
Task 5:模型融合 模型融合是比赛后期的一个重要环节,大致有以下几种方式: 简单加权融合 回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean); 分类:投票(Voting) 综合:排序融合(Rank averaging),log融合 stacking/blending 构建多层模型,并利用预测结果再拟合预测。 boosting/bagging(在xgboost,Adaboost,GBDT中已经用到): 多树的提升方法 5.4.1回归\分类概率原创 2021-03-28 16:27:04 · 182 阅读 · 0 评论 -
数据挖掘————HeartbeatClassification
该项目是天池比赛的一个,学习记录。 Task4 建模与调参1(建模) # 导入相关包和相关设置 import pandas as pd import numpy as np from sklearn.metrics import f1_score#精确率和召回率的调和平均数 import os import seaborn as sns import matplotlib.pyplot as plt import warnings warnings.filterwarnings("ignore") #原创 2021-03-25 21:18:39 · 179 阅读 · 0 评论 -
数据挖掘————HeartbeatClassification
Task3 特征工程 在这一篇中以天池比赛的HeartbeatClassification提供的数据作为对象,提取数据特征,这在数据挖掘中是非常关键的步骤,通过此步骤可以得到大量优秀的特征,方便接下来使用机器学习方法或其他方法建模。 由于本次比赛的数据是时间序列数据,所以主要介绍提取时间序列特征的tsfresh包里的方法。这在比赛中是经常见到的工具。 import pandas as pd import numpy as np import tsfresh as tsf#提取时间序列数据 from tsfr原创 2021-03-22 20:24:19 · 354 阅读 · 0 评论 -
HeartBeatClassification------------数据分析
HeartBeatClassification是天池比赛的一个项目,记录学习过程。 Task 2 数据分析 数据分析主要是在拿到数据之后,对数据的结构,质量,分布做基本的了解,方便后续工作的展开,做到心中对数据大致有一个把握。 # 2.3.1载入各种数据科学和可视化库 #coding:utf-8 # 导入warning包,利用过滤器来实现忽略警告语句 import warnings warnings.filterwarnings('ignore') import pandas as pd import mi原创 2021-03-19 18:57:12 · 533 阅读 · 0 评论 -
数据挖掘--Heartbeatclassification
HeartbeatClassification是天池数据比赛的一道题目。 记录学习过程。 从近几年的各大数据竞赛中可以看到模型融合的身影,本文主要有“十折交叉法”,“lgb",将数据集分为训练集、验证集、测试集。 导入第三方包: # 导入第三方包 import os import gc import math import pandas as pd import numpy as np import lightgbm as lgb import xgboost as xgb from catboost原创 2021-03-16 20:36:31 · 309 阅读 · 3 评论