pandas学习日志1--生成数据表、选择数据、设置值(nan)


一、生成数据表

1.创建一个列表

import pandas as pd
import numpy as np
s=pd.Series([1,3,6,np.nan,44,1])
print(s)

2.生成index索引(行)

import pandas as pd
import numpy as np
dates=pd.date_range('20160101',periods=6)
print(dates)

3.生成数据表

import pandas as pd
import numpy as np
dates=pd.date_range('20160101',periods=6)
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])
print(df)

4.输出行/列的索引

import pandas as pd
import numpy as np
dates=pd.date_range('20160101',periods=6)
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])
print(df.index)
print(df.columns)

5.输出值

import pandas as pd
import numpy as np
dates=pd.date_range('20160101',periods=6)
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])
print(df.values)

6.数据表描述

import pandas as pd
import numpy as np
dates=pd.date_range('20160101',periods=6)
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])
print(df.describe())

7.按数据表索引排序

import pandas as pd
import numpy as np
dates=pd.date_range('20160101',periods=6)
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])
df.sort_index(axis=1,ascending=False)   #0行1列
print(df)

8.按数据表值排序

import pandas as pd
import numpy as np
dates=pd.date_range('20160101',periods=6)
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])
df.sort_values(by='a')
print(df)

二、选择数据

1.直接通过 columns 和 index 选择

import pandas as pd
import numpy as np
dates=pd.date_range('20160101',periods=6)
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])
print(df['a'])   #选择第a列
#print(df.a)
print(df[0:3])     #选择第0-2行
#print(df['20160101':'20160103'])

2.通过标签 loc 选择

import pandas as pd
import numpy as np
dates=pd.date_range('20160101',periods=6)
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])
print(df.loc['20160102'])
#df.loc[:,['a','b']]
#df.loc['20160102',['a','b']]

3.通过数字 iloc 选择

import pandas as pd
import numpy as np
dates=pd.date_range('20160101',periods=6)
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])
print(df.iloc[3:5,1:3])

三、设置值(nan)

1.丢弃nan值

import pandas as pd
import numpy as np
dates=pd.date_range('20160101',periods=6)
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])
df.iloc[0,1]=np.nan
df.iloc[1,2]=np.nan
df1=df.dropna(axis=0,how='any')  #how={'any','all'}  any任意出现nan全丢弃   all:全为nan  丢弃   
print(df1)

2.填充nan值

import pandas as pd
import numpy as np
dates=pd.date_range('20160101',periods=6)
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])
df.iloc[0,1]=np.nan
df.iloc[1,2]=np.nan
df1=df.fillna(value=0)
print(df1)

3.判断是否存在nan

import pandas as pd
import numpy as np
dates=pd.date_range('20160101',periods=6)
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])
df.iloc[0,1]=np.nan
df.iloc[1,2]=np.nan
df1=df.isnull()

whether=np.any(df.isnull()==True)

print(df1)
print(whether)  #判断是否有缺失值存在

本文参考资料-----【莫烦Python】 系列教程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@白圭

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值