python线性回归模型预处理_线性回归-2 数据预处理与模型验证评估

本文详细介绍了线性回归模型预处理中的数据向量化、特征放缩、过拟合与欠拟合的概念,以及重采样、交叉验证的重要性。通过Python代码展示了如何进行数据预处理、过采样与下采样操作,并使用LogisticRegression进行交叉验证以优化模型。最后,利用混淆矩阵评估模型性能。
摘要由CSDN通过智能技术生成

主要内容数据向量化处理

特征放缩

上采样和下采样

重采样和交叉验证

模型验证

python 代码实现

1. 数据向量化处理

对于给定的m个样本,假设最终的拟合函数是

equation?tex=h_%CE%B8+%28x%29%2C+%CE%B8+ 为拟合的权重系数,则有

损失函数改写为矩阵形式

由于

equation?tex=h_%CE%B8+%EF%BC%88x%5Ei+%EF%BC%89%3D%CE%B8%5ET+x%5Ei%3D%5B%28x%5Ei%29%5D%5ET+%CE%B8 , 可以得出

有公式以得到损失函数的向量表达式

2. 特征放缩

在实际中,我们不同特征的尺度大小,取值范围可能可能相差很大

例如,我们有两个特征,分别是房子的面积以及房子的卧室数。房子的面积取值范围大约是0~300,而卧室数的取值范围在0~5。这样的话,如果我们把它们关于代价函数的等高线图绘制出来的话,形如狭长同心椭圆,一个狭长的椭圆在逼近收敛的时候就会产生震荡,因为横轴方向的参数只要略微变化等高线图中显示的损失函数就会剧烈变化,从而影响收敛准确性。我们的目标是我们特征放缩的目标是把所有的特征放到同一个数量级下面。

方法:均值标准化(Mean normalization)

使用特征值减去它的均值,然后再除以它们的最大值.

3. 过拟合和欠拟合

简单理解:过拟合是在训练数据上表现良好,在未知数据上表现差,欠拟合在训练数据和未知数据上表现都很差。

首先了解泛化概念

泛化:机器学习模型学习到的概念在它处于学习的过程中时模型没有遇见过的样本时候的表现。在机器学习领域中,当我们讨论一个机器学习模型学习和泛化的好坏时,我们通常使用术语,过拟合和欠拟合.

从训练数据中学习目标函数的过程中,我们必须考虑的问题是模型在预测新数据时的泛化性能。泛化好坏是很重要的,因为我们收集到的数据只是样本,其带有噪音并且是不完全的。

Note:如果我们已经知道了目标函数的形式,我们将可以直接用它来做预测,而不是从一堆有噪音的数据中把它费力的学习出来。

机器学习中的过拟合

当某个模型过度的学习训练数据中的细节和噪音,以至于模型在新的数据上表现很差。这意味着训练数据中的噪音或者随机波动也被当做概念被模型学习了。而问题就在于这些概念不适用于新的数据,从而导致模型泛化性能的变差。

过拟合更可能在无参数非线性模型中发生

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据预处理是数据分析中非常重要的一个环节,它可以让原始数据更加适合用于各种分析和建模任务。常见的数据预处理包括数据清洗、缺失值处理、异常值处理、特征选择、特征缩放和特征变换等。下面我们将介绍一些常见的数据预处理方法。 1. 数据清洗 数据清洗是指在数据中去除不合理、重复或者无效的数据,保证数据的完整性和准确性。常见的数据清洗方法包括: - 删除重复数据 - 去除异常值 - 去除不合理数据 - 填充缺失值 2. 缺失值处理 缺失值是指数据集中某些数据缺失的情况。常见的缺失值处理方法包括: - 删除缺失值 - 插值法填补缺失值 - 使用平均值、中位数、众数等统计量填补缺失值 3. 异常值处理 异常值是指数据集中不符合正常规律的数据。常见的异常值处理方法包括: - 删除异常值 - 修改异常值 - 使用插值法填补异常值 4. 特征选择 特征选择是指从原始数据中选择最具有代表性的特征,以便用于分析和建模。常见的特征选择方法包括: - 过滤式特征选择 - 包裹式特征选择 - 嵌入式特征选择 5. 特征缩放 特征缩放是指将不同量纲的特征缩放到相同的范围内。常见的特征缩放方法包括: - 标准化 - 归一化 - 对数变换 6. 特征变换 特征变换是指通过对原始数据进行某些变换,使得数据更适合用于分析和建模。常见的特征变换方法包括: - 主成分分析(PCA) - 线性判别分析(LDA) - 因子分析 以上就是一些常见的数据预处理方法,通过对数据进行适当的预处理,可以提高数据分析和建模的准确性和效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值