- pandas基本介绍
Series简介
s1 = pd.Series([1,2,3,4,5]) #直接创建
s2 = pd.Series(np.random.randn(10)) #以array创建
s3 = pd.Series({'1':1,'2':2,'3':3}) #以字典创建
s3.values #查看数值
s3.index #查看索引
s4 = pd.Series([1,2,3,4],index = ['a','b','c','d']) #自定义索引
s4['a'] #像字典一样查找
s4[s4>2] #查找大于2的值
s4.to_dict() #转换成字典
s5 = pd.Series (s4.todict())
index_1 = ['a','2','c','4','e']
s6 = pd.Series(s5,index = index_1)
pd.isnull(s6) #判断数值是否是nun
s6.name = 'demo' #给s6起名字
s6.index.name = 'demo index' #给索引起名字
DataFrame简介
df = pd.DataFrame(np.random.randn(6,4),index = ['a','b','c','d','e','f'], columns = ['bei','jing','shang','hai'])
df.bei #访问'bei'这一列
df['bei']
df[['bei','jing']]
df_new = pd.DataFrame(df,columns = ['shang','jing']) #删选其中的两列出来
df ['guang'] = np.arange(0,6) #增加一列
df ['bei'] = np.random.randint(10,size = 6) #修改某列的数值
df.values
df.describe() #运算数字的统计特性
df.T #转置
df.guang = df.Series([100,200],index = ['a','b']) #只给a b 赋值
df.sort_index(axis = 1, ascending = False) #列索引倒序排序 默认是对行的索引进行升序排序
df.sort_values(by = 'bei')
- pandas 数据选择
df.shape
df[0:3] #访问前三行数据
df.head() #访问前五行
df.head(10) #访问前十行
df.tail() #访问后五行
df.loc[*] #删选*标签
df.loc[:,['_','_']] #选择某两列
df.iloc[3] #选择第三行
df.iloc[3,1] #第三行第一列
df.iloc[3:5,[1,3]] #3到4行,1、3列
df.[df.A>8]
- pandas 设置值
df.loc['横向标签','纵向标签'] = 111
df.iloc[2,2] = 222
df[df.A>0] = 1
df.A[df.A>0] = 1
df['新增列'] = np.nan