1.数据转换
(1)简单变化:
数据变换的目的是将数据转换为更方便分析的数据
简单变换通常使用函数变换的方式进行,常见的函数变换包括:开方,平方,对数等
(2)数据规范化:
离差标准化--消除量纲(单位)影响以及变异大小因素的影响 (最小-最大标准化)
x1=(x-min)/(max-min)
标准差标准化--消除单位影响以及变量自身变异影响 (零-均值标准化)
x1=(x-平均数)/标准差
小数定标规范化--消除单位影响
x1=x/10**(k)
k=log10(x的绝对值的最大值)
import pymysql
import pandas as pda
import numpy as npy
conn=pymysql.connect(host="127.0.0.1",user="root",passwd='root',db='csdn')
sql="select price,comment from taob"
data=pda.read_sql(sql,conn)
#离差标准化
data2=(data-data.min())/(data.max()-data.min())
print(data2)
#标准差标准化
data3=(data-data.mean())/data.std()
print(data3)
#小数定标规范化
k=npy.log10(data.abs().max())
data4=data/10**k
print(data4)
(3)离散化:
等宽离散化