Python pandas快速入门指南

最新推荐文章于 2023-12-08 17:35:26 发布

Haitang8

最新推荐文章于 2023-12-08 17:35:26 发布

阅读量367

点赞数

分类专栏：数据分析文章标签： Python

本文链接：https://blog.csdn.net/Haitang8/article/details/79648623

版权

数据分析专栏收录该内容

1 篇文章 0 订阅

订阅专栏

In [10]: df2 = pd.DataFrame({ 'A' : 1.,
                     'B' : pd.Timestamp('20130102'),
                     'C' : pd.Series(1,index=list(range(4)),dtype='float32'),   //生成Series对象,取的是value
                     'D' : np.array([3] * 4,dtype='int32'),  //生成numpy对象
                     'E' : pd.Categorical(["test","train","test","train"]),
                     'F' : 'foo' })  


In [11]: df2
Out[11]:          // 默认以数字从0开始作为行键,以字典键为列键
     A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo

一、引入

import pandas as pd                  #数据分析，代码基于numpy
import numpy as np                   #处理数据，代码基于ndarray
import matplotlib.pyplot as plt      #画图

二、创建对象

# Series数据结构（一维数组），有索引（index）-可以和编程中的数据结构哈希（Hash）结合起来
s = pd.Series([1,2,3,np.nan,8,9])            #默认以数字从0开始作为键值,使用np.nan表示不参与计算
s

0    1.0
1    2.0
2    3.0
3    NaN
4    8.0
5    9.0
dtype: float64

#创建series的基本格式: s=pd.Series(data,index=index,name=name)
s = pd.Series(np.random.randn(5),index=["a","b","c","d","e"],name='my_Series')
print(s)
print(s.name)
s.index
s.values

a    0.015799
b   -0.455041
c    1.084646
d   -0.327082
e   -0.295424
Name: my_Series, dtype: float64
my_Series

Out[10]: Index(['a', 'b', 'c', 'd', 'e'], dtype='object')                              #获取键列表

Out[11]: array([-2.5898144 ,  0.38889121, -0.55472526,  0.11395365,  1.24213307])      #获取值列表

#字典创建的Series，数据将按index的顺序重新排列；index长度可以和字典长度不一致
d={'a':0,'b':1,'c':3}
print('d is a dict:')
print(d)
s=pd.Series(d,index=['b','c','d','a'])
print(s)

d is a dict:
{'a': 0, 'b': 1, 'c': 3}
b    1.0
c    3.0
d    NaN
a    0.0
dtype: float64

d is a dict:
{'a': 0, 'b': 1, 'c': 3}
b    1.0
c    3.0
d    NaN
a    0.0
dtype: float64

#如果数据就是一个单一的变量，如数字4，那么Series将重复这个变量：
s=pd.Series(4,index=['b','c','d','a'])
print(s)

b    4
c    4
d    4
a    4
dtype: int64

#访问Series数据可以和数组一样使用下标，也可以像字典一样使用索引，还可以使用一些条件过滤：

Haitang8

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录