第4章最基础的分类算法-k近邻算法 kNN 学习笔记下_assert x.shape.ndims == 2, x.shape-CSDN博客

本文链接：https://blog.csdn.net/moonlightpeng/article/details/106516029

4-7 数据归一化07-Feature-Scaling

08-Scaler-in-Scikit-Learn

实现我们自己的standardScaler

使用我们自己的 kNN 解决手写数字识别问题

4-7 数据归一化07-Feature-Scaling

如学生的分数0--100，图像的像素0--255这些情况适合最值归一化，而收入不能用这种方法，变化可能会很大，可以改进采用

匀值方差归一化后的scale_就是之前数据的std方差

sklearn中scalar的使用流程

08-Scaler-in-Scikit-Learn

实现我们自己的standardScaler

preprocessing.py 其他的三个脚本在前面

import numpy as np


class StandardScaler:

    def __init__(self):
        self.mean_ = None
        self.scale_ = None

    def fit(self, X):
        """根据训练数据集X获得数据的均值和方差"""
        assert X.ndim == 2, "The dimension of X must be 2"

        self.mean_ = np.array([np.mean(X[:,i]) for i in range(X.shape[1])])
        self.scale_ = np.array([np.std(X[:,i]) for i in range(X.shape[1])])

        return self

    def transform(self, X):
        """将X根据这个StandardScaler进行均值方差归一化处理"""
        assert X.ndim == 2, "The dimension of X must be 2"
        assert self.mean_ is not None and self.scale_ is not None, \
               "must fit before transform!"
        assert X.shape[1] == len(self.mean_), \
               "the feature number of X must be equal to mean_ and std_"

        resX = np.empty(shape=X.shape, dtype=float)
        for col in range(X.shape[1]):
            resX[:,col] = (X[:,col] - self.mean_[col]) / self.scale_[col]
        return resX