python pandas

最新推荐文章于 2024-06-10 15:53:13 发布

Z_mirror

最新推荐文章于 2024-06-10 15:53:13 发布

阅读量535

点赞数 3

分类专栏： python pandas 文章标签： pandas

本文链接：https://blog.csdn.net/qq_43287650/article/details/82891576

版权

一、Pandas 基本数据结构

1.series

类似一维数组的对象，由一组数据（各种numpy数据类型）和与之相关的索引列组成。

创建：

(1)obj = Series([1,2,3,4],index=[‘a’,‘b’,‘c’,‘d’])
此索引是自定义的，默认的索引是0123，读取的时候既可以用自定义的索引值，也可以用默认的索引来读取。
读取：obj[0] 或者 obj[‘a’] 2个读取：obj[[‘a’,‘c’]] 区间读：obj[‘a’:‘c’]
修改：obj[‘a’]=50

(2)city = {‘beijing’:35000,‘shanghai’:45000,‘guangzhou’:50000,‘shenzhen’:55000}
s2 = Series(city)
通过字典来创建series.字典的key会自动变成index
规定索引顺序：index2 = [‘beijing’, ‘shanghai’, ‘guangzhou’, ‘shenzhen’]
s3 = Series(city,index=index2)
规定顺序后依然可以更改索引：s3.index = list(‘abcd’)

2.DataFrame

表格型数据结构，有行索引和列索引,行索引：index ;列索引：columns
创建：

（1）由等长列表或Numpy数组构成的字典：

import pandas as pd
from pandas import Series,DataFrame
data = {
   
    'city':['beijing','shanghai','guangzhou','shenzhen','wanwan'],
    'year':[2014,2015,2016,2017,2018],
    'pop':[1.5,1.7,1.0,2.1,2.3]
}
df1 = pd.DataFrame(data)
# 自定义列的显示顺序
df2 = DataFrame(data,columns=['year','city','pop'])
# 读取数据
df2.city #方法1
df2['year']#方法二
df2['city'][3] #读取城市中下标为3的。'shenzhen'
#重新赋值
df2['pop'][2]=1.9
# 赋值的列名不存在,会新建一列,如果长度比索引的长度长，则会报错，如果给一个值，那么一列就会被填充满这个值
df2['debt'] = np.arange(5.0) #长度刚好，正确
 # 改索引值，按照‘，’分割，改的是行索引的值，默认的是01234
df2.index = 'one,two,three,four,five'.split(',')  
# 再加一列，赋值的类型为Series.会在索引值对应的地方填上数字，无值的地方用nan填充
df2['debt2'] = Series([-10,-30,-50],index=['one','two','five'])
#再加一列，即使长度一致也要保证index的匹配，否则没有值，会显示NAN
df2['debt3'] = Series([9,8,'k','a','k'],index = 'one,two,three,four,five'.split(',') )    
#再加一列，我们从已有的列中而来的数据不规定索引也能添加数据，返回的是df2.city=='上海'的值，是一些布尔类型的值
df2['pcity'] = (df2.city=='shanghai')   
#删除列：
del df2['debt3']

（2）嵌套字典（即字典中的字典）

#第一个key是列索引，第二个Key是行索引
data2 = {
   
    'shanghai':{
   2000:2.4,2001:3.5},
    'beijing':{
   2001:3.4,2002:4.4}
}
df3 = DataFrame(data2)
# 转置
df3.T
 #给行和列索引取名 
df3.index.name='年份'
df3.columns.name='城市'

额外的小知识

时间处理：用日期做索引

#随便定义的8天的日期
dates = pd.date_range('20181001',periods=8) #期间为8
#将时间作为索引
df4 = DataFrame(np.random.randn(8,5),index=dates,columns=list('ABCDE')) #8行5列的随机数

二、Series与DataFrame中的索引

1.读取赋值和删除

1）.series

import numpy as np 
import pandas as pd 
from pandas import Series,DataFrame
#准备一个Series
s = Series(np.arange(4),index=list('ABCD'))
#读取所有的index
s.index
#读取index中下标为2的
s.index[2] 
#index是不能更改和赋值的
s.index[2]= 'H' #不能修改赋值
# series的删除
del s['D']

2）.DataFrame

object.drop(‘XXX’,axis=0) 默认删除横向数据
object.drop(‘YYY’,axis=1)纵向删除

#准备一个DataFrame
df = DataFrame(
    np.arange(16).reshape(4,4),
    index = list('abcd'),
    columns= 'one|two|three|four'.split('|')
)
# 返回删除后的返回值,原数据不变
drop1 = df.drop(['a','b'])
# 纵向删除 一定要加上轴
drop1.drop(['four'],axis=1)
#读取 DataFrame 行索引，一列
df.loc['b'] #根据索引读取 location
df.iloc[1] #根据下标读取 index location

2.索引的选区和过滤

#准备一个series
s1 = Series(
    np.arange(2,9)

最低0.47元/天解锁文章

Z_mirror

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
python pandas

一、Pandas 基本数据结构1.series类似一维数组的对象，由一组数据（各种numpy数据类型）和与之相关的索引列组成。创建：(1)obj = Series([1,2,3,4],index=[‘a’,‘b’,‘c’,‘d’])此索引是自定义的，默认的索引是0123，读取的时候既可以用自定义的索引值，也可以用默认的索引来读取。读取：obj[0] 或者 obj[‘a’] 2个读取...
复制链接

扫一扫