pandas _use_practice

最新推荐文章于 2023-11-14 21:31:56 发布

weixin_43534779

最新推荐文章于 2023-11-14 21:31:56 发布

阅读量168

点赞数

本文链接：https://blog.csdn.net/weixin_43534779/article/details/84941565

版权

import pandas as pd
from pandas import Series, DataFrame
import numpy as np

pandas基本数据结构：

Series数据结构：它是一种类似于一维数组的对象，由一组数据和与之对应的索引组成
DataFrame数据结构：它是一种表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数字，布尔值，字符串等）

Series数据结构

对象的创建
查看对象的值，和索引的值
通过对象索引访问单个值或者一组值
isnull()和 notnull()函数判断对象缺失值
对象和对象索引的name属性
对象索引的赋值修改

obj = pd.Series([2,3,4,5,6])

obj

0    2
1    3
2    4
3    5
4    6
dtype: int64

obj.values

array([2, 3, 4, 5, 6], dtype=int64)

obj.index.values

array([0, 1, 2, 3, 4], dtype=int64)

obj2 =  Series  ([  4 ,  7 , - 5 ,  3 ],  index= [  'd' ,  'b' ,  'a' ,  'c'])

obj2

d    4
b    7
a   -5
c    3
dtype: int64

obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

通过索引访问对象的单个值，或者一组值

obj2['a']

-5

obj2[['a','b']]

a   -5
b    7
dtype: int64

obj2 > 3

d     True
b     True
a    False
c    False
dtype: bool

obj2[obj2>3]

d    4
b    7
dtype: int64

# 用字典创建Series对象
dic = { 'Ohio':  35000 ,  'Texas':  71000 ,  'Oregon':  16000 ,  'Utah':  5000}
obj3 = Series(dic)

obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

idx = ['China','Ohio','Texas','Oregon']

obj4 = Series(dic, index = idx)

obj4

China         NaN
Ohio      35000.0
Texas     71000.0
Oregon    16000.0
dtype: float64

pandas 中的 isnull（）和 notnull() 函数用于检测确实值数据

pd.isnull(obj4)

China      True
Ohio      False
Texas     False
Oregon    False
dtype: bool

pd.isnull(obj4).sum()

# i=0
# if (pd.isnull(obj4)):
#     i+=1
#     print(i)

obj4.isnull().count()

obj4.isnull().sum()

Series对象及索引的name属性

obj4.name = 'Ilove'

obj4

China         NaN
Ohio      35000.0
Texas     71000.0
Oregon    16000.0
Name: Ilove, dtype: float64

obj4.index.name = 'sheng'
# obj4.values.name = 'P'

---------------------------------------------------------------------------

AttributeError                            Traceback (most recent call last)

<ipython-input-36-e077b7c726ad> in <module>()
      1 obj4.index.name = 'sheng'
----> 2 obj4.values.name = 'P'


AttributeError: 'numpy.ndarray' object has no attribute 'name'

obj4

sheng
China         NaN
Ohio      35000.0
Texas     71000.0
Oregon    16000.0
Name: Ilove, dtype: float64

# Series对象索引可以赋值修改
obj4.index = ['a','b','c','d']

obj4

a        NaN
b    35000.0
c    71000.0
d    16000.0
Name: Ilove, dtype: float64

DataFrame数据结构

创建方式：传入等长列表或者Numpy数组组成的字典, 传入嵌套字典
访问DataFrame的数据结构的列，返回一个 Series对象
获取DataFrame对象的行，访问行 (iloc[],loc[])
列可以通过赋值的方式进行修改，但是长度需要和DataFrame匹配，
创建新的列，为不存在的列赋值会创建新的列，关键字 del 用于删除列

data = {'state': ['Ohio','Ohio','Ohio','Nevada','Nevada'],
       'year': [2000, 2001, 2002, 2001, 2002],
       'pop':[1.5, 1.7, 3.6, 2.4, 2.9]}

frame = DataFrame(data)

# DataFrame(data, index, columns,dtype,copy):参数

frame

	state	year	pop
0	Ohio	2000	1.5
1	Ohio	2001	1.7
2	Ohio	2002	3.6
3	Nevada	2001	2.4
4	Nevada	2002	2.9

# 终点序列顺序
frame = DataFrame(data, columns = ['pop', 'state','year'])

frame

	pop	state	year
0	1.5	Ohio	2000
1	1.7	Ohio	2001
2	3.6	Ohio	2002
3	2.4	Nevada	2001
4	2.9	Nevada	2002

frame2 = DataFrame(data, index = ['one','two','thress','four','five'], columns = ['year','state','pop','dept'])
# 如果传入的列在数据集里找不到，补缺失值

frame2

	year	state	pop	dept
one	2000	Ohio	1.5	NaN
two	2001	Ohio	1.7	NaN
thress	2002	Ohio	3.6	NaN
four	2001	Nevada	2.4	NaN
five	2002	Nevada	2.9	NaN

frame2.index.name='Digit'

frame2

	year	state	pop	dept
Digit
one	2000	Ohio	1.5	NaN
two	2001	Ohio	1.7	NaN
thress	2002	Ohio	3.6	NaN
four	2001	Nevada	2.4	NaN
five	2002	Nevada	2.9	NaN

访问DataFrame的数据结构的列，返回一个 Series对象，

frame2.year

Digit
one       2000
two       2001
thress    2002
four      2001
five      2002
Name: year, dtype: int64

frame2['year']

Digit
one       2000
two       2001
thress    2002
four      2001
five      2002
Name: year, dtype: int64

# frame2.index = ['O','T','H','F','V']
# # 通过赋值的方式改变行索引
# frame2.columns = ['Y','S','P','D']
# # 通过赋值的方式改变列索引

frame2

	year	state	pop	dept
Digit
one	2000	Ohio	1.5	NaN
two	2001	Ohio	1.7	NaN
thress	2002	Ohio	3.6	NaN
four	2001	Nevada	2.4	NaN
five	2002	Nevada	2.9	NaN

获取DataFrame对象的行，访问行

frame2.ix['thress']

D:\anacoda\lib\site-packages\ipykernel_launcher.py:1: DeprecationWarning: 
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.





year     2002
state    Ohio
pop       3.6
dept      NaN
Name: thress, dtype: object

frame2.loc['two',:]

year     2001
state    Ohio
pop       1.7
dept      NaN
Name: two, dtype: object

frame2.iloc[2]

year     2002
state    Ohio
pop       3.6
dept      NaN
Name: thress, dtype: object

列可以通过赋值的方式进行修改，但是长度需要和DataFrame匹配，

frame2['dept'] = 15

frame2

	year	state	pop	dept
Digit
one	2000	Ohio	1.5	15
two	2001	Ohio	1.7	15
thress	2002	Ohio	3.6	15
four	2001	Nevada	2.4	15
five	2002	Nevada	2.9	15

frame2.dept = np.arange(5.)

frame2

	year	state	pop	dept
Digit
one	2000	Ohio	1.5	0.0
two	2001	Ohio	1.7	1.0
thress	2002	Ohio	3.6	2.0
four	2001	Nevada	2.4	3.0
five	2002	Nevada	2.9	4.0

# 如果赋值是一个Series对象，则会精确匹配到DataFrame对象的索引，所有空位都会补全缺失值
val = Series([-1.2, -1.5, -1.7, -1.3], index = ['two','thress','five','T'])

frame2.dept = val

frame2

	year	state	pop	dept
Digit
one	2000	Ohio	1.5	NaN
two	2001	Ohio	1.7	-1.2
thress	2002	Ohio	3.6	-1.5
four	2001	Nevada	2.4	NaN
five	2002	Nevada	2.9	-1.7

创建新的列，为不存在的列赋值会创建新的列，关键字 del 用于删除列

frame2['es'] = frame2.state == 'Ohio'

frame2

	year	state	pop	dept	es
Digit
one	2000	Ohio	1.5	NaN	True
two	2001	Ohio	1.7	-1.2	True
thress	2002	Ohio	3.6	-1.5	True
four	2001	Nevada	2.4	NaN	False
five	2002	Nevada	2.9	-1.7	False

del frame2['es']

frame2

	year	state	pop	dept
Digit
one	2000	Ohio	1.5	NaN
two	2001	Ohio	1.7	-1.2
thress	2002	Ohio	3.6	-1.5
four	2001	Nevada	2.4	NaN
five	2002	Nevada	2.9	-1.7

通过嵌套字典创建 DataFrame对象: 外层键为列索引，内层键为行索引

pop = {'Nevada':{2001:2.4, 2002:2.9},
      'Ohio':{2000:1.2, 2001:1.7, 2002:3.6}}

frame3 = DataFrame(pop)

frame3

	Nevada	Ohio
2000	NaN	1.2
2001	2.4	1.7
2002	2.9	3.6

frame3.T # 转置

	2000	2001	2002
Nevada	NaN	2.4	2.9
Ohio	1.2	1.7	3.6

DataFrame对象行索引，列索引的 name属性，values属性（返回二维数组形式），

frame3.index.name = 'GJ'
frame3.columns.name = 'year'

frame3

year	Nevada	Ohio
GJ
2000	NaN	1.2
2001	2.4	1.7
2002	2.9	3.6

frame3.values

array([[nan, 1.2],
       [2.4, 1.7],
       [2.9, 3.6]])

frame3.index

Int64Index([2000, 2001, 2002], dtype='int64', name='GJ')

frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='year')

weixin_43534779

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
pandas _use_practice

import pandas as pdfrom pandas import Series, DataFrameimport numpy as nppandas基本数据结构：Series数据结构：它是一种类似于一维数组的对象，由一组数据和与之对应的索引组成DataFrame数据结构：它是一种表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数字，布尔值，字符串等）Seri...
复制链接

扫一扫