机器学习实战之k-近邻算法（4）--- 如何归一化数据

最新推荐文章于 2024-08-08 22:03:12 发布

chchlh

最新推荐文章于 2024-08-08 22:03:12 发布

阅读量4k

点赞数

分类专栏：机器学习实战文章标签： k-近邻算法 Python 机器学习数据归一化

本文链接：https://blog.csdn.net/chchlh/article/details/41597781

版权

机器学习实战专栏收录该内容

9 篇文章 1 订阅

订阅专栏

归一化的公式：

newValue = (oldValue - min) / (max - min)

就是把数据归一化到[0, 1]区间上。

好处：

防止某一维度的数据的数值大小对距离就算产生影响。多个维度的特征是等权重的，所以不能被数值大小影响。

下面是归一化特征值的代码：

#归一化特征值
def autoNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals, (m, 1))
    normDataSet = normDataSet / tile(ranges, (m, 1))
    return normDataSet, ranges, minVals

然后在Python shell中：

>>> reload(kNN)
<module 'kNN' from 'kNN.py'>
>>> normMat, ranges, minVals = kNN.autoNorm(datingDataMat)
>>> normMat
array([[ 0.44832535,  0.39805139,  0.56233353],
       [ 0.15873259,  0.34195467,  0.98724416],
       [ 0.28542943,  0.06892523,  0.47449629],
       ..., 
       [ 0.29115949,  0.50910294,  0.51079493],
       [ 0.52711097,  0.43665451,  0.4290048 ],
       [ 0.47940793,  0.3768091 ,  0.78571804]])
>>> ranges
array([  9.12730000e+04,   2.09193490e+01,   1.69436100e+00])
>>> minVals
array([ 0.      ,  0.      ,  0.001156])

其中datingDataMat是调用前面的函数得到的：

>>> import kNN
>>> reload(kNN)
<module 'kNN' from 'kNN.pyc'>
>>> datingDataMat, datingLabels = kNN.file2matrix('datingTestSet2.txt', 3)

下面解释一下归一化的函数：

(1)tile函数是把第一个参数复制成一个m*1的矩阵中去。

(2)这里的 / 是每个元素相除，如果是矩阵的除法，需要用到linalg.solve(matA, matB)

chchlh

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
机器学习实战之k-近邻算法（4）--- 如何归一化数据

归一化的公式：newValue = (oldValue - min) / (max - min)就是把数据归一化到[0, 1]区间上。好处：防止某一维度的数据的数值大小对距离就算产生影响。多个维度的特征是等权重的，所以不能被数值大小影响。下面是归一化特征值的代码：#归一化特征值def autoNorm(dataSet): minVals = dataSet.min
复制链接

扫一扫

专栏目录