归一化方法有两种形式,一种是把数变为(0,1)之间的小数,一种是把有量纲表达式变为无量纲表达式。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。
特征归一化主要有3种方法:
1.总和归一化(sumNormalizer):就是计算所有文档同一个特征值的总和。即每一个特征下标都有一个总 和。v = v / ∑v_i
2. zscore归一化(ZscoreNormalizer):v = (v-μ)/σ
3.linear归一化(LinearNormalizer): v = (v - min )/ (max-min)