pandas过滤缺失值

最新推荐文章于 2024-08-02 09:46:25 发布

castingA3T

最新推荐文章于 2024-08-02 09:46:25 发布

阅读量2.6k

点赞数

分类专栏： python数据挖掘文章标签： pandas

本文链接：https://blog.csdn.net/castingA3T/article/details/78925314

版权

python数据挖掘专栏收录该内容

16 篇文章 1 订阅

订阅专栏

import pandas as pd
import numpy as np
obj=pd.Series(range(5),index=['a','a','b','b','c'])
print(obj)
print(obj.index.is_unique)#是够是唯一值
print(obj['b'])
print(obj['c'])
print(obj[['a','b']])#输出多个列
print(obj.values)#数组
print(obj.value_counts())#出现频次
print('==========================')
df=pd.DataFrame(np.random.randn(4,3),index=['a','a','b','b'])
print(df)
print(df.loc['a'])#行索引

df=pd.DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index=['a','b','c','d'],columns=['one','two'])
print(df)
print(df[df['one']==1.4])#过滤
arr=np.arange(10).reshape(2,5)
print(np.sum(arr))
print(df.sum())#每列求和
print(df.sum(axis=1))#行求和
print(df.sum(axis=1,skipna=False))#保留nan值
print(df.idxmax())#最大值索引
print(df.cumsum())#累计和
print(df.describe())#整体统计
print('==========================')
obj=pd.Series(['a','b','c','d','a'] * 4)
print(obj.describe())
print(obj.head())#前5行
print(obj.tail())#后5行
obj=pd.Series(['c','a','d','a','a','b','b','c','c'])
print(obj.unique())#唯一值
a=obj.unique()
print(np.sort(a))#排序
print(obj.value_counts())#频次数
print(pd.value_counts(obj.values,sort=False))
print(pd.value_counts(obj.values))
mask=obj.isin(['b','c'])
print(mask)#是否是子集
print(obj[mask])#输出子集
print('===================================')
from numpy import nan as NA
data=pd.Series([1,NA,3.5,NA,7])
print(data.dropna())#过滤缺失值
print(data[data.notnull()])#等价于上面
data=pd.DataFrame([[1,6.5,3],[1,NA,NA],[NA,NA,NA],[NA,6.5,3]])
print(data.dropna())
print(data.dropna(how='all'))#过滤全是nan值行
print(data.dropna(axis=1,how='all'))#过滤列
print(data.dropna(thresh=3))#至少有3个非nan值