python基础练习(五)—— 数据清洗补全处理
# -*- coding: utf-8 -*-
#1. 读入 肝气郁结证型系数.xls 数据集,将数据集按照等距、小组等量 两种方式 分别分为5组数据,分别计算5组数据的中位数与标准差
import numpy as np
from pandas import Series, DataFrame
import pandas as pd
path = 'D:/pytest/week6data/' #输出数据路径
df1=pd.read_excel(path+'gqyjxsj.xls',header=None,skiprows=1)
df1.columns=['Values'] #设定列名
df1['Group_XZDJ']=pd.cut(df1['Values'],5,precision=2) #将值列按等距方式分为5组并赋值新列
df1['Group_XZDL']=pd.qcut(df1['Values'], 5, precision=2) #将值列按等距等量方式分为5组并赋值新列
group_xzdl=df1['Values'].groupby(df1['Group_XZDJ']) #将值列按等距分组列准备数据
group_xzdj=df1['Values'].groupby(df1['Group_XZDL']) #将值列按等距等量分组列准备数据
group_xzdl.median() #等距方式求中位数
group_xzdl.std() #等距方式求标准差
group_xzdj.median() #等距等量求中位数
group_xzdj.std() #等距等量求标准差
#2. 读入BHP1.csvÿ