python数据预处理人口数案例_python数据预处理

缺失值处理

import pandas as pda

import numpy as npy

import matplotlib.pylab as pyl

# data=pda.read_excel("D:/taobao2.xls")

def index(data):

data = pda.DataFrame(data[1:],columns=data[0])

print(data)

data["价格"][(data["价格"]==0)]=None

print(data)

x=0

for i in data.columns:

for j in range(len(data)):

if(data[i].isnull())[j]:

data[i][j]=data["价格"].mean()

x+=1

print(x)

if __name__ == "__main__":

data = nosupervision_read_data()

index(data)

数据离散化处理

#离散化

#连续型数据离散化

#等宽离散化

import pandas as pda

import numpy as npy

import matplotlib.pylab as pyl

# data=pda.read_excel("D:/taobao2.xls")

def index(data):

data = pda.DataFrame(data[1:], columns=data[0])

da=data.values

price=da[:,2]

price.sort()

print(price)

k=5

c1=pda.cut(price,k,labels=["太便宜","便宜","适中","贵","太贵"])

print(c1)

#指点区间离散化

k=[0,50,100,price.max()]

print(k)

c2=pda.cut(price,k,labels=["非常便宜","适中","贵"])

print(c2)

if __name__ == "__main__":

data = nosupervision_read_data()

index(data)

数据集成处理

# -*- coding:utf-8 -*-

# 异常值处理

import pandas as pda

import numpy as npy

def index(data):

# 输出结果必须为字典output

output = {}

# data = pda.read_excel("D:/taobao2.xls")

data = pda.DataFrame(data[1:], columns=data[0])

# print(data)

da = data.values

# 数据集成

da1 = da[0:10]

da2 = da[10:20]

da3 = npy.concatenate((da1, da2))

pda.DataFrame(da3)

output['data_数据集成'] = pda.DataFrame(da3).values.tolist()

print(pda.DataFrame(da1))

print(pda.DataFrame(da2))

print(pda.DataFrame(da3))

print(output)

return output

if __name__ == "__main__":

data = nosupervision_read_data()

index(data)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值