数据科学
赵大寳Note
公众号:赵大寳Note(ID:StateOfTheArt),跟我一起探索世界
展开
-
数据挖掘中对Categorical特征的处理
Categorical特征常被称为离散特征、分类特征,数据类型通常是object类型,而我们的机器学习模型通常只能处理数值数据,所以需要对Categorical数据转换成Numeric特征。Categorical特征又有两类,我们需要理解它们的具体含义并进行对应的转换。Ordinal 类型:这种类型的Categorical存在着自然的顺序结构,如果你对Ordinal 类型数据进行排序的话...原创 2018-04-19 18:59:17 · 11809 阅读 · 1 评论 -
欠采样与过采样方法
使用SMOTE过采样时应先切分训练集和验证集,再对训练集进行过采样,否则将会导致严重的过拟合 https://beckernick.github.io/oversampling-modeling/使用方法:X_train, X_val, y_train, y_val = train_test_split(train_df[predictors], train_df[target], ...原创 2018-04-30 19:54:27 · 16094 阅读 · 1 评论 -
Blending 和 Stacking
stacking和blending是两种集成分类器的相似方法Stacking一、stacking方法是什么stacking是一种分层模型集成框架。以两层为例,第一层由多个基学习器组成,其输入为原始训练集,第二层的模型则是以第一层基学习器的输出作为特征加入训练集进行再训练,从而得到完整的stacking模型。二、如何构造stacking模型以两层stacking模型为例,...原创 2018-06-23 17:39:04 · 10562 阅读 · 4 评论