原标题:怎样用Python进行数据转换和归一化
怎样用Python进行数据转换和归一化
1、概述
实际的数据库极易受到噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源,低质量的数据将会导致低质量的数据分析结果,大量的数据预处理技术随之产生。本文让我们来看一下数据预处理中常用的数据转换和归一化方法都有哪些。
2、数据转换(Data Transfer)
对于字符型特征的处理:转换为字符型。
数据转换其实就是把一些字符型数据转换为计算机可以识别的数值型数据的过程,例如我们有性别这个属性,其中有“男”、“女”这两个元素,那我们就可以用数字0代表“男”,1代表“女”。
用python代码来实现一下:
import pandas as pddata = {'性别' : ['男', '女', '男', '女', '女']}df = pd.DataFrame(data)print(df)
df[u'性别'] = df[u'性别'].map({'男': 1, '女': 0})print(df)
3、零均值归一化(Z-Score Normalization)
说到零均值归一化,我们就要先来聊聊归一化是什么。
归一化是我们在数据预处理中经常要用到的方法。假设我们通过一个人的身高和体重去判断一个人的胖瘦,有一个人的身高为1.80m体重为80kg