Fewred-CSDN博客

转载数据挖掘Task 5: 模型融合

模型融合是比赛后期一个重要的环节，大体来说有如下的类型方式。简单加权融合:回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）；分类：投票（Voting)综合：排序融合(Rank averaging)，log融合stacking/blending:构建多层模型，并利用预测结果再拟合预测。boosting/bagging（在xgboost，Adaboost,GBDT中已经用到）:多树的提升方法实现代码：5.4 代码实例5.4.1

2021-03-28 23:08:26 538

转载数据挖掘task4

4.4 模型对比与性能评估4.4.1 逻辑回归优点训练速度较快，分类的时候，计算量仅仅只和特征的数目相关；简单易理解，模型的可解释性非常好，从特征的权重可以看到不同的特征对最后结果的影响；适合二分类问题，不需要缩放输入特征；内存资源占用小，只需要存储各个维度的特征值；缺点逻辑回归需要预先处理缺失值和异常值【可参考task3特征工程】；不能用Logistic回归去解决非线性问题，因为Logistic的决策面是线性的；对多重共线性数据较为敏感，且很难处理数据不平衡的问题；准确率并不是很高，

2021-03-25 23:16:55 173

转载数据挖掘task3

这次task我们重点学习了时间序列数据的特征预处理方法学习了时间序列特征处理工具 Tsfresh（TimeSeries Fresh）的使用相关代码如下：3.3.1 导入包并读取数据包导入import pandas as pdimport numpy as npimport tsfresh as tsffrom tsfresh import extract_features, select_featuresfrom tsfresh.utilities.dataframe_functions

2021-03-22 22:39:08 116

转载数据挖掘task2

本次task研究了这个数据集的特征和可靠性，以及是否适合用于训练。相关代码如下：2.3.1 载入各种数据科学与可视化库#coding:utf-8#导入warnings包，利用过滤器来实现忽略警告语句。import warningswarnings.filterwarnings(‘ignore’)import missingno as msnoimport pandas as pdfrom pandas import DataFrameimport matplotlib.pyplot as

2021-03-19 21:34:24 137

转载 2021-03-18

DataWhale 集成学习（上）Task2选择度量模型性能的指标:MSE均方误差MAE平均绝对误差决定系数解释方差得分线性回归模型回归这个概念是19世纪80年代由英国统计学家郎西斯.高尔顿在研究父子身高关系提出来的，他发现:在同一族群中，子代的平均身高介于父代的身高以及族群的平均身高之间。具体而言，高个子父亲的儿子的身高有低于其父亲身高的趋势，而矮个子父亲的儿子身高则有高于父亲的身高的趋势。也就是说，子代的身高有向族群平均身高"平均"的趋势，这就是统计学上"回归"的最初含义。回归分析

2021-03-18 20:38:39 74

转载 173829_edit

导入第三方包import osimport gcimport mathimport pandas as pdimport numpy as npimport lightgbm as lgbimport xgboost as xgbfrom catboost import CatBoostRegressorfrom sklearn.linear_model import SGDRegressor, LinearRegression, Ridgefrom sklearn.preproce

2021-03-17 01:58:12 104

转载 DataWhale 集成学习（上）Task1

# 引入相关科学计算包import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inline plt.style.use("ggplot") import seaborn as snsfrom sklearn import datasets# sklearn内置数据集：糖尿病数据集diabetes = datasets.load_diabetes() # 返回一个类似于字典的

2021-03-15 23:07:27 71

Fewred的博客