数据清洗 处理 概述

import pandas as pd                                                       
import matplotlib.pyplot as plt                                           
df = pd.read_csv("student.csv")#读取student.csv文件                           
#df1=df.fillna(value=0) # 缺失值的填充 设置所有空值为0                                         
#df1=df['sex'].fillna(value='男')                                          
# df1=df.fillna(value={"sex":李四,女,18"男","age":105})#fillna把为空得值替换为另一个     

# print(df1.head()) 

值的替换                                                      

# df2=df1.replace(to_replace={'age':105},value={'age':55})#to_replace需要替换的数据

# #replace() 方法把字符串中的 old(旧字符串) 替换成 new(新字符串),如果指定第三个参数max,则替换不超过 max 次。  

# print(df2.head())   

to_Replace():要替换的类型可以有str ,regex ,list ,dict ,series , int ,float ,or Noneq

                                                                                                            
#print(df.head())                                                                                           
#print(df.head(n=20))# 加n是关键参数,不加n是必须参数,带有默认值5                                                               
                                                                                                            
# print(df['age'].head())                                                                                   
print('--------')                                                                                           
zhi = df['age'].mean() #mean平均值                                                                              
print(zhi)                                                                                                  
pai=df['age'].sort_values()        #排序                                                                    
print(pai)                                                                                                  
                                                                                                            
#df1=df.replace(to_replace=df[df['age']>140],value={'age':50})                                              
#print(df1.head(50))                                                                                        
# df.boxplot(flierprops={'markerfacecolor':'r','marker':'d'},meanline=True,showmeans=True)                  
# #flierprops添加属性,markerfacecolor极限值颜色,marker极限值形状,meanline,showmeans显示平均值  (虚线显示)                
               
# plt.show()                                                                                                
print('---------------')                                                                                    
print(pai.median())  # median()中位数                                                                           

Markerfacecolor :颜色

Marker : 形状 “D:菱形   “o: 圆形

 

 

删除空值的行和列dropna()

df.dropna()#每行只要有空值,默认axis=0,就将这行删除
df.dropna(axis=1)#每列只要有空值,整列丢弃
df.dropna(how='all')# 一行中全部为NaN的,才丢弃该行
df.dropna(thresh=3)# 每行至少3个非空值才保留

 

 


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值