Python机器学习-数据预处理技术(标准化处理、归一化、二值化、独热编码、标记编码)

数据预处理技术

机器是看不懂绝大部分原始数据的,为了让让机器看懂,需要将原始数据进行预处理。

  • 引入模块和数据
import numpy as np
from sklearn import preprocessing

data = np.array([[3,-1.5,2,-5.4],
                 [0,4,0.3,2.1],
                 [1,3.3,-1.9,-4.3]]) 
                #第0轴长度为3,第1轴长度为4
  • 知识前备

线性变换的特征向量(本征向量)是一个非简并的向量,其方向在该变换下不变。该向量在此变换下缩放的比例称为其特征值(本征值)。

一个线性变换通常可以由其特征值和特征向量完全描述。特征空间是相同特征值的特征向量的集合

特征向量外文名 Eigenvector

公式:Av=λv (A:矩阵(即变换),v:特征向量(在满足等式的情况下),λ:特征值(在满足等式的情况下))

  • 标准化处理

即保证特征均值为0(均值移除)

数据标准化主要功能就是消除变量间的量纲关系,从而使数据具有可比性,一般标准化采用的是Z标准化,即均值为0,方差为1

data_standardized=preprocessing.scale(data)
print ("原始data\n",data)
print ("\n经过标准化处理的data\n",data_
  • 7
    点赞
  • 47
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值