自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 DataWhale-数据挖掘-Task5

五、模型融合5.1 学习内容简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合stacking/blending:构建多层模型,并利用预测结果再拟合预测。boosting/bagging(在xgboost,Adaboost,GBDT中已经用到):多树的提升方法5.2 相关原理stacking具体原理详

2021-03-28 23:31:14 135

原创 DataWhale-数据挖掘-Task4

四、建模与调参4.1 主要内容逻辑回归模型:理解逻辑回归模型;逻辑回归模型的应用;逻辑回归的优缺点;树模型:理解树模型;树模型的应用;树模型的优缺点;集成模型基于bagging思想的集成模型随机森林模型基于boosting思想的集成模型XGBoost模型LightGBM模型CatBoost模型模型对比与性能评估:回归模型/树模型/集成模型;模型评估方法;模型评价结果;模型调参:贪心调参方法;网格调参方法;

2021-03-25 23:32:55 239

原创 DataWhale-数据挖掘-Task3

三、特征提取3.1 学习目标学习时间序列数据的特征预处理方法学习时间序列特征处理工具 Tsfresh(TimeSeries Fresh)的使用3.2 内容介绍数据预处理时间序列数据格式处理加入时间步特征time特征工程时间序列特征构造特征筛选使用 tsfresh 进行时间序列特征处理3.3 相关代码3.3.1 导包import pandas as pdimport numpy as npimport tsfresh as tsffrom tsfresh

2021-03-22 13:04:53 126 1

原创 DataWhale-数据挖掘-Task2

二、数据分析1、EDA何谓EDA:探索性数据分析(Exploratory Data Analysis)简称EDA,是指对已有的数据(特别是调查或观察得来的原始数据),在尽量少的先验假定的情况下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析的方法。EDA的主要工作– 形成假设,确定探索主题– 处理“脏数据”– 评估数据,大致确定数据表达内容– 初步分离出一些重要特征– 初步确定使用模型2、相关代码2.1 导包import warnings

2021-03-18 21:54:00 136

原创 DataWhale-数据挖掘-Task1

一、赛题理解1.1 赛题概况比赛要求参赛选手根据给定的数据集,建立模型,预测不同的心跳信号。1.2 数据概况一般而言,对于数据在比赛界面都有对应的数据概况介绍(匿名特征除外),说明列的性质特征了解列的性质会有助于我们对于数据的理解和后续分析。train.csvid 为心跳信号分配的唯一标识heartbeat_signals 心跳信号序列(数据之间采用“,”进行分隔)label 心跳信号类别(0、1、2、3)testA.csvid 心跳信号分配的唯一标识heartbeat_sign

2021-03-18 20:39:23 118

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除