自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 2-1、特征:特征选择、特征预处理(缩放)、特征抽取、特征构造

目录一、特征预处理对二维数组进行标准化实例化对指定轴方向元素进行标准化标准化缺失值替换实例化根据给定的变量值生成多项式模型技巧1、模型过拟合:表现:在学习曲线中训练集得分高,测试集得分低。解决方法:获取更多训练样本;减少输入的特征数量。2、模型欠拟合:表现:在学习曲线中训练集得分低,测试集得分也低。解决方法:增较有价值的特征;增加多项式特征。一、特征预处理fom sklearn ...

2021-10-17 16:22:11 1292

原创 6、集合算法

@toc一、自助聚合算法Bagging是Bootstrap Aggregating的缩写有放回的采样,从m个样本的原数据集里进行n次采样,构成一个含n个样本的新训练数据集来训练模型。重复上述过程B次,得到B个模型。当有新样本需要进行预测时,用这B个模型来预测,最后用投票方式或平均值来得到预测值。只是对同一数据集训练出多个模型。二、正向激励算法Boosting初始化时对数据集每个样本一个权...

2019-08-09 16:37:22 2164

原创 5、决策树

适用对象:数据有大量的多层次的名义特征或者数据有大量的数值特征,这些案例可能生成数量庞大的决策和一个过于复杂的决策树。优缺点:C5.0优点:可以处理数值型数据、名义特征一级缺失值。C5.0缺点:在根据有大量水平的特征进行划分时往往是有偏的思想:从代表整个数据集的根节点开始,选择最能预测目标累的特征,然后这些案例江北划分到这一特征的不同值的组中,形成第一组树枝。之后每次选择最佳的候选特征,直到...

2019-04-03 08:12:03 820

原创 2-4、模型选择

一、模型选择from sklearn import model_selection将数据集拆分为训练/测试集(一次)model_selection.train_test_split(data, target, test_size, train_size, random_state, shuffle, stratify)将列表、数组、矩阵或DataFrame随机拆分为训练集和测试集构成的...

2019-04-03 08:04:54 883

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除