回归和拟合、归一化和标准化

回归和拟合:

一、回归:

研究一个随机变量Y对另一个(X)或一组(X1,X2,…,Xk)变量的相依关系的统计分析方法。

应用回归预测法时应首先确定变量之间是否存在相关关系。如果变量之间不存在相关关系,对这些变量应用回归预测法就会得出错误的结果。

二、拟合

所谓拟合是指已知某函数的若干离散函数值{f1,f2,…,fn},通过调整该函数中若干待定系数f(λ1,λ2,…,λn),使得该函数与已知点集的差别(最小二乘意义)最小.

三、帮助理解的一些观点:

1、拟合是一种数据处理的方式。简单的说就是你有一组数据,觉得这组数据和一个已知的函数(这个函数的参数未定)很相似,为了得到最能表示这组数据特征的这个函数,通过拟合这种方式(具体的数学方法很多)求得参数。
而回归是一种特定的数学方法,它可以实现数据拟合,得到函数的参数。


2、

Curve fitting is the process of constructing a curve, or mathematicalfunction, that has the best fit to a series of data points, possibly subject toconstraints. Curve fitting can involve either interpolation, where an exact fitto the data is required, or smoothing, in which a "smooth" functionis constructed that approximately fits the data. A related topic is regressionanalysis, which focuses more on questions of statistical inference such as howmuch uncertainty is present in a curve that is fit to data observed with randomerrors. Fitted curves can be used as an aid for data visualization, to infervalues of a function where no data are available, and to summarize therelationships among two or more variables. Extrapolation refers to the use of afitted curve beyond the range of the observed data, and is subject to a greaterdegree of uncertainty since it may reflect the method used to construct thecurve as much as it reflects the observed data.

它告诉我们拟合侧重于调整曲线的参数,使得与数据相符。

而回归重在研究两个变量或多个变量之间的关系。它可以用拟合的手法来研究两个变量的关系,以及出现的误差。



归一化和标准化

一、归一化:

1、把数变为(0,1)之间的小数
主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。
2、把有量纲表达式变为无量纲表达式
归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。

3、对不同特征维度的伸缩变换的目的是使各个特征维度对目标函数的影响权重是一致的,即使得那些扁平分布的数据伸缩变换成类圆形。这也就改变了原始数据的一个分布。

好处:

(1)提高迭代求解的收敛速度

(2)提高迭代求解的精度


二、标准化

1、数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。由于信用指标体系的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。

2、标准化表示的是原始值与均值之间差多少个标准差,是一个相对值,所以也有去除量纲的功效。同时,它还带来两个附加的好处:均值为0,标准差为1。均值为0有什么好处?比如在去中心化的数据上做SVD分解等价于在原始数据上做PCA;机器学习中很多函数如SigmoidTanhSoftmax等都以0为中心左右分布(不一定对称)。

3、标准化是为了方便数据的下一步处理,而进行的数据缩放等变换,并不是为了方便与其他数据一同处理或比较,比如数据经过零-均值标准化后,更利于使用标准正态分布的性质,进行处理。

4、对不同特征维度的伸缩变换的目的是使得不同度量之间的特征具有可比性。同时不改变原始数据的分布。待考究。


三、其他参考

1、归一化与标准化:http://www.cnblogs.com/zhaokui/p/5112287.html

2、数据标准化/归一化normalization  http://blog.csdn.net/pipisorry/article/details/52247379

3、标准化和归一化什么区别? https://www.zhihu.com/question/20467170

4、是否需要标准化/归一化:

主要看模型是否具有伸缩不变性。

有些模型在各个维度进行不均匀伸缩后,最优解与原来不等价,例如SVM。对于这样的模型,除非本来各维数据的分布范围就比较接近,否则必须进行标准化,以免模型参数被分布范围较大或较小的数据dominate。

有些模型在各个维度进行不均匀伸缩后,最优解与原来等价,例如logisticregression。对于这样的模型,是否标准化理论上不会改变最优解。但是,由于实际求解往往使用迭代算法,如果目标函数的形状太“扁”,迭代算法可能收敛得很慢甚至不收敛。所以对于具有伸缩不变性的模型,最好也进行数据标准化。
作者:王赟 Maigo
链接:https://www.zhihu.com/question/30038463/answer/50491149
来源:知乎


  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
线性回归中的normalize归一是指对特征矩阵进行标准化处理,使得特征之间的取值范围相同。这样做的目的是为了避免某些特征对模型的影响过大,导致模型不稳定或者无法收敛。通过归一可以将特征的取值映射到一个较小的范围内,使得不同特征之间具有可比性,从而提高模型的效果。 具体来说,常用的归一方法有两种:标准化(standardization)和最小-最大归一(min-max normalization)。 标准化是指将特征的取值转为均值为0,标准差为1的正态分布。它的计算公式为:x' = (x - mean) / std,其中x'为标准化后的特征值,x为原始特征值,mean为特征的均值,std为特征的标准差。 最小-最大归一是指将特征的取值缩放到一个固定的范围,通常是[0, 1]或者[-1, 1]。它的计算公式为:x' = (x - min) / (max - min),其中x'为归一后的特征值,x为原始特征值,min为特征的最小值,max为特征的最大值。 归一可以提高模型的训练速度和准确性,使得特征之间的权重更加均衡。在实际应用中,选择哪种归一方法取决于数据的分布情况和模型的要求。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Normalize 归一 + 线性回归和逻辑回归](https://blog.csdn.net/qq_40926715/article/details/126953532)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值