python数据预处理

一、数据规范化

 

import pymysql

import pandas as pd

import numpy as np

conn = pymysql.connect(host="",user="root",passwd="root",db="csdn")

sql = "select price,comment from taob"

data=pd.read_sql(sql,conn)

#离差标准化

data2 = (data-data.min())/(data.max() - data.min())

# 标准差标准化

data3 = (data-data.mean())/data.std()

# 小数定标规范化

k = np.ceil(np.log10(data.abs().max()))

data4 = data / 10**k

 

 

二、离散化

 

连续数据离散化

# 等宽离散化

data5 = data[u"price"].copy()

data6 = data5.T

data7 = data6.values

k =3

c1 = pd.cut(data7,k,labels = ["便宜","适中","贵"])

# 非等宽离散化

k1 = [0,50,100,300,500,2000,data7.max()]

c2 = pd.cut(data7,k1)

# 等频率离散化

# 一维聚类离散

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值