什么是归一化?
归一化的概念在人工智能领域会普通看到, 比如使用TensorFlow框架编码时,就会出现数据归一化的步骤或函数。
简单来说, 归一化就是对一组数据进行转换,使这组数据具备相同的格式或特性。举例来说: 一组任意的整数数组:1,2,400,5000, 如果每个数都除以这组元素中的最大值的话(这里是5000),则这个数组元素的值位于0-1之间,满足数学上概率的值的区间。
在AI中,对培训数据进行归一化的好处有:
1、保持合适的样本间距
以上面的示例来说, 1和5000相差甚远,如果以坐标图绘制,则相差的太远, 归一化之后就好多了。
2、平等对待多个特征向量。
有个例子示房子面积和房子的数量对房价的影响。面积的体量明显大于房子的数目,面积的因素很容易掩盖数量的影响。所以,归一化之后,更容易找到问题的解。
归一化的数学方法
归一化常见的数学方法有:
线性归一化
也称作(0,1)标准化 线性归一化 , Min-Max标准化和离差标准化。是对原始数据进行线性变换,变换后的结果值在0到1之间。
公式是: X = (x-Min)/(Max-Min)
均值标准差归一化
使用均值和标准差进行数据的标准化。转换后的数据符合正态分布, 即均值为0, 标准差为1。
公式是:X= x-均值/标准差
Sigmoid函数归一化
Java归一化类Normalizer