归一化处理方法

数据归一化问题是数据挖掘中特征向量表达时的重要问题,当不同的特征成列在一起的时候,由于特征本身表达方式的原因而导致在绝对数值上的小数据被大数据“吃掉”的情况,这个时候我们需要做的就是对抽取出来的features vector进行归一化处理,以保证每个特征被分类器平等对待。下面我描述几种常见的Normalization Method,并提供相应的python实现(其实很简单):

1、(0,1)标准化:

这是最简单也是最容易想到的方法,通过遍历feature vector里的每一个数据,将Max和Min的记录下来,并通过Max-Min作为基数(即Min=0,Max=1)进行数据的归一化处理:

 

LaTex:{x}_{normalization}=\frac{x-Min}{Max-Min}

Python实现:

def MaxMinNormalization(x,Max,Min):

    x = (x - Min) / (Max - Min);

    return x;

找大小的方法直接用np.max()和np.min()就行了,尽量不要用python内建的max()和min(),除非你喜欢用List管理数字偷笑

 

2、Z-score标准化:

这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,这里的关键在于复合标准正态分布,个人认为在一定程度上改变了特征的分布,关于使用经验上欢迎讨论,我对这种标准化不是非常地熟悉,转化函数为:

 

LaTex:{x}_{normalization}=\frac{x-\mu }{\sigma }

Python实现:

def  Z_ScoreNormalization(x,mu,sigma):

    x = (x - mu) / sigma;

    return x;

这里一样,mu(即均值)用np.average(),sigma(即标准差)用np.std()即可。
 

 

3、Sigmoid函数

Sigmoid函数是一个具有S形曲线的函数,是良好的阈值函数,在(0, 0.5)处中心对称,在(0, 0.5)附近有比较大的斜率,而当数据趋向于正无穷和负无穷的时候,映射出来的值就会无限趋向于1和0,是个人非常喜欢的“归一化方法”,之所以打引号是因为我觉得Sigmoid函数在阈值分割上也有很不错的表现,根据公式的改变,就可以改变分割阈值,这里作为归一化方法,我们只考虑(0, 0.5)作为分割阈值的点的情况:

 

 

LaTex:{x}_{normalization}=\frac{1}{1+{e}^{-x}}

Python实现:

def sigmoid(X,useStatus):

    if useStatus:

        return 1.0 / (1 + np.exp(-float(X)));

    else:

        return float(X);

这里useStatus管理是否使用sigmoid的状态,方便调试使用。

函数的基本性质:

  1. 定义域:(−∞,+∞)(−∞,+∞)
  2. 值域:(−1,1)(−1,1)
  3. 函数在定义域内为连续和光滑函数
  4. 处处可导,导数为:f′(x)=f(x)(1−f(x))f′(x)=f(x)(1−f(x))

最早Logistic函数是皮埃尔·弗朗索瓦·韦吕勒在1844或1845年在研究它与人口增长的关系时命名的。广义Logistic曲线可以模仿一些情况人口增长(P)的 S 形曲线。起初阶段大致是指数增长;然后随着开始变得饱和,增加变慢;最后,达到成熟时增加停止。

二、 Sigmoid函数与逻辑回归

Sigmoid函数之所以叫Sigmoid,是因为函数的图像很想一个字母S。这个函数是一个很有意思的函数,从图像上我们可以观察到一些直观的特性:函数的取值在0-1之间,且在0.5处为中心对称,并且越靠近x=0的取值斜率越大。

机器学习中一个重要的预测模型逻辑回归(LR)就是基于Sigmoid函数实现的。LR模型的主要任务是给定一些历史的{X,Y},其中X是样本n个特征值,Y的取值是{0,1}代表正例与负例,通过对这些历史样本的学习,从而得到一个数学模型,给定一个新的X,能够预测出Y。LR模型是一个二分类模型,即对于一个X,预测其发生或不发生。但事实上,对于一个事件发生的情况,往往不能得到100%的预测,因此LR可以得到一个事件发生的可能性,超过50%则认为事件发生,低于50%则认为事件不发生

从LR的目的上来看,在选择函数时,有两个条件是必须要满足的:
1. 取值范围在0~1之间。
2. 对于一个事件发生情况,50%是其结果的分水岭,选择函数应该在0.5中心对称。

从这两个条件来看,Sigmoid很好的符合了LR的需求。关于逻辑回归的具体实现与相关问题,可看这篇文章Logistic函数(sigmoid函数) - wenjun’s blog,在此不再赘述。

 

  • 42
    点赞
  • 275
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
MATLAB数据归一化处理方法是将数据集按照一定的方法调整到特定区间内的过程。常用的归一化方法包括最大最小值归一化、Z-score标准化和Decimal Scaling等。 最大最小值归一化是将数据通过线性变换,将数据集中的最小值映射到新区间下界,最大值映射到新区间上界,中间的数据也按比例缩放到新区间内。具体方法为使用公式: $x' = \frac{x - \min(X)}{\max(X) - \min(X)} \times (new\_max - new\_min) + new\_min $, 其中$x$为原始数据,$x'$为归一化后的数据,$X$为原始数据集,$\min(X)$和$\max(X)$分别为数据集中的最小值和最大值,$new\_min$和$new\_max$为目标区间的下界和上界。 Z-score标准化方法通过计算数据集的均值和标准差,将数据映射到以均值为0、标准差为1的标准正态分布上。具体方法为使用公式: $x' = \frac{x - \mu}{\sigma}$, 其中$x$为原始数据,$x'$为归一化后的数据,$\mu$为数据集的均值,$\sigma$为数据集的标准差。 Decimal Scaling是一种基于十进制移位的归一化方法,通过移动小数点的位置将数据映射到新的区间内。具体方法为使用公式: $x' = \frac{x}{10^d}$, 其中$x$为原始数据,$x'$为归一化后的数据,$d$为移动的位数,需要根据数据集的范围进行确定。 通过以上三种方法,可以对不同范围和分布的数据集进行归一化处理,从而使得不同尺度的数据具有可比性,方便进行后续的数据分析和处理

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值