自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 数据挖掘——HeartbeatClassification

Task 5:模型融合模型融合是比赛后期的一个重要环节,大致有以下几种方式:简单加权融合回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合stacking/blending构建多层模型,并利用预测结果再拟合预测。boosting/bagging(在xgboost,Adaboost,GBDT中已经用到):多树的提升方法5.4.1回归\分类概率

2021-03-28 16:27:04 146

原创 数据挖掘————HeartbeatClassification

该项目是天池比赛的一个,学习记录。Task4 建模与调参1(建模)# 导入相关包和相关设置import pandas as pdimport numpy as npfrom sklearn.metrics import f1_score#精确率和召回率的调和平均数import osimport seaborn as snsimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings("ignore")#

2021-03-25 21:18:39 170

原创 数据挖掘————HeartbeatClassification

Task3 特征工程在这一篇中以天池比赛的HeartbeatClassification提供的数据作为对象,提取数据特征,这在数据挖掘中是非常关键的步骤,通过此步骤可以得到大量优秀的特征,方便接下来使用机器学习方法或其他方法建模。由于本次比赛的数据是时间序列数据,所以主要介绍提取时间序列特征的tsfresh包里的方法。这在比赛中是经常见到的工具。import pandas as pdimport numpy as npimport tsfresh as tsf#提取时间序列数据from tsfr

2021-03-22 20:24:19 293

原创 HeartBeatClassification------------数据分析

HeartBeatClassification是天池比赛的一个项目,记录学习过程。Task 2 数据分析数据分析主要是在拿到数据之后,对数据的结构,质量,分布做基本的了解,方便后续工作的展开,做到心中对数据大致有一个把握。# 2.3.1载入各种数据科学和可视化库#coding:utf-8# 导入warning包,利用过滤器来实现忽略警告语句import warningswarnings.filterwarnings('ignore')import pandas as pdimport mi

2021-03-19 18:57:12 472

原创 Ensemble Learning------基本的回归模型

Ensemble Learning----基本的回归模型上一次有点没说完。聚类是无监督学习的一种,比如我们常见的k-means算法,不给出因变量,对自变量的取值进行聚类。回归是监督学习的一种方法,包含的内容非常多,比较基础的是线性回归,当线性回归不能解决问题时将线性回归的每个变量增加次数,成为多项式回归,如果将每个变量变成多项式,就成为了广义可加模型(GAM)。另外决策树、SVM(支持向量机)都是回归问题的解决方法。from sklearn import datasetsboston=datase

2021-03-18 16:19:50 361

原创 数据挖掘--Heartbeatclassification

HeartbeatClassification是天池数据比赛的一道题目。记录学习过程。从近几年的各大数据竞赛中可以看到模型融合的身影,本文主要有“十折交叉法”,“lgb",将数据集分为训练集、验证集、测试集。导入第三方包:# 导入第三方包import osimport gcimport mathimport pandas as pdimport numpy as npimport lightgbm as lgbimport xgboost as xgbfrom catboost

2021-03-16 20:36:31 227 3

原创 Ensemble Learning----机器学习三大任务

机器学习的三个主要任务可以是——分类、聚类和回归。数据中含有自变量和因变量,每列数据成为一个特征,每个样本有p+1个维度,前p个维度称为样本的p个特征,也就是自变量,最后一个维度称为样本的因变量,根据数据是否有因变量,机器学习的任务可以分为:有监督学习和无监督学习。有监督学习:给定某些特征去估计因变量。如:我们使用房间面积,房屋所在地区,环境等级等因素去预测某个地区的房价。也就比如分类和回归问题。无监督学习:给定某些特征却不给定因变量。如:我 们给定某电商用户的基本信息和消费记录,通过观察数据中的哪些

2021-03-15 16:46:39 297

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除