sklearn
soda東風
写写博记录学习成果
展开
-
sklearn 绘制学习曲线(模型状态评估)
不同训练集大小,模型在训练集和验证集上的得分变化曲线原创 2020-03-27 17:24:08 · 2537 阅读 · 0 评论 -
sklearn 样本不均衡问题
目录过采样欠采样样本分布不均衡将导致样本量少的分类所包含的特征过少,并很难从中提取规律;即使得到分类模型,也容易产生过度依赖于有限的数据样本而导致过拟合的问题,当模型应用到新的数据上时,模型的准确性和鲁棒性将很差。抽样是解决样本分布不均衡相对简单且常用的方法,包括过采样和欠采样两种。过采样和欠采样更适合大数据分布不均衡的情况,尤其是第一种(过采样)方法应用更加广泛。...原创 2020-03-27 15:47:57 · 4797 阅读 · 0 评论 -
sklearn 模型评价: 回归分类评价指标及划分数据集
使用sklearn划分数据集及常规分类回归问题的评价指标原创 2020-03-27 14:25:31 · 2042 阅读 · 0 评论 -
sklearn 参数搜索
参数类型一般参数:模型通过最小化损失函数自动求解的参数超参数:不能通过模型对数据进行学习而求解的参数,比如神经网络的层数、正则系数的alpha值等参数搜索:超参数的搜索:提前设置好参数可以选择的候选值,然后根据不同参数组合对于模型泛化能力的贡献,选取最佳的超参数组合。参数搜索的方法:GridSearchCV,基于交叉验证的网格搜索法:将要搜索的参数候...原创 2020-01-06 09:55:19 · 720 阅读 · 0 评论 -
sklearn 增维: PolynomialFeatures
增维也叫特征扩展处理目的:解决模型欠拟合捕捉自变量与应变量之间的非线性关系常见处理方法多项式拓展:1)假设数据集中包含自变量a、b2)如果对自变量做二项式扩展3)自变量集从两个变量扩展为5个变量(a、b、a×a、b×b、a×b)from sklearn.preprocessing import PolynomialFeatures# 准备筛选数据x = df[['c...原创 2020-01-02 17:08:45 · 305 阅读 · 0 评论 -
sklearn 降维:PCA & SelectFromModel
处理目的:降低不相关特征对于模型准确性的干扰降低模型复杂度,提高模型泛化能力减少建模特征,提高模型训练与预测速度处理方法:基于数据理解,直接删除使用主成分分析法(PCA)对特征进行变换使用机器学习模型对特征进行筛选常用判断标准:保留数据的解释方差累计百分比达到95%的所有特征# 载入sklearn里的pca模块from sklearn.decomposition i...原创 2020-01-02 17:01:19 · 419 阅读 · 0 评论 -
sklearn 纠偏
正态分布:数据呈现对称的钟形分布左偏态:样本大量集中在均值右边(均值偏到了左边)右偏态:样本大量集中在均值左边(均值偏到了右边)处理方法:右偏态:常用对数函数处理左偏态:常用指数函数处理通用变换方法:以降低数据的偏态系数为目标,使得数据分布更加接近正太分布的变换方法yeo-johnson 变换:可以处理包含正数、负数和零的变量box-cox变换:只能处理数值皆为正数的变量#...原创 2020-01-02 16:09:45 · 487 阅读 · 0 评论 -
sklearn 标准化
标准化目的:去除数据量纲的影响提高模型的解释性加快模型收敛速度标准化的方法:中心化:减去均值再除以标准差01标准化:减去最小值再除以最大值与最小值的差# sklearn 中标准化的方法from sklearn.preprocessing import StandardScaler #中心化from sklearn.preprocessing import MinMaxSc...原创 2020-01-02 16:05:08 · 884 阅读 · 0 评论 -
sklearn 缺失值处理
df = pd.read_excel('real_estate_sample.xlsx')df.isna().sum()原创 2020-01-02 14:40:19 · 1421 阅读 · 1 评论 -
sklearn Pipeline构建模型工作流
Pipeline : 将一系列的类连成一条流水线,让数据在流水线上跑起来导入:from sklearn.pipeline import Pipeline参数解释:Pipeline(steps, memory = None, verbose = False)steps:设定工序并取名形式: [(),()] 列表里面为元组, 分别为名字和工序memory: 不清楚 默认Noneve...原创 2020-01-02 11:23:57 · 179 阅读 · 0 评论 -
sklearn 画一棵决策树
from sklearn import treefrom sklearn.datasets import load_winefrom sklearn.model_selection import train_test_splitimport pandas as pdwine = load_wine()wine.data.shapewine.targetpd.concat([pd....原创 2019-12-26 15:11:30 · 323 阅读 · 0 评论 -
sklearn 逻辑回归画正则化C曲线
通过正则化C曲线进行可视化调参, 选择合适的惩罚项导库from sklearn.linear_model import LogisticRegression as LRfrom sklearn.datasets import load_breast_cancerimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.m...原创 2019-12-26 14:53:04 · 493 阅读 · 0 评论