Python之pandas库(万年一更版)

瓦伦丁的拐杖

已于 2022-10-02 19:52:23 修改

阅读量1.8k

点赞数 2

文章标签： python pandas

于 2022-09-21 15:05:33 首次发布

本文链接：https://blog.csdn.net/qq_62969774/article/details/126970591

版权

大体上的更新就这样子啦，还有一些函数没有补充上去，等哪天用到了想起来了我又回来补嘿嘿。

前言

博主是第一次写文章，也是非计算机的小白一枚，刚刚开始接触科研，希望以此记录一下学习过程。

如果有哪里不完全或者是不对的地方，希望各位能多多指正啦！

一、pandas是什么？

对于博主来说，pandas就像是一个工具，处理数据以及分析数据。

那如何学习pandas呢？

学好pandas首先你得对numpy有一定的了解。

基本数据类型
Series	一维结构，可以理解为竖起来的list
Dateframe	二维结构，可以理解为excel表格

二、开始正式学习啦！！

1.基本数据类型

1.1认识Series(系列)

先上段简单的代码！

import pandas as pd
s_1 = pd.Series([1,2,3,4,5,6,7]) #注意S必须要大写!!!

好了，这样我们就创建了一个简单的Series了，我们来看看它里面的内容

我们可以发现他的索引也就是index和他的值也就是value是一一对应的关系

那么可能有些人觉得这个索引不顺眼，那可不可以换呢？答案是当然可以了！

import pandas as pd

s_1 = pd.Series([1,2,3,4,5,6,7],index=['a','b','c','d','e','f','g'])

让我们看看效果！

Series的属性

s_1.index
>>Index(['a', 'b', 'c', 'd', 'e', 'f', 'g'], dtype='object')
s_1.values
>>array([1, 2, 3, 4, 5, 6, 7])

’‘’查‘’‘

(1)通过标签
s_1['d']#访问的index为d
s_1[['a','d']]#访问的index为a和d
s_1[['a':'d']]#访问的index为a到d
(1)通过列表
s_1[0]
s_1[[0,4]]
s_1[[0:4]]

'''增删改'''

s_2 = pd.Series(['rose','lily'])
s_3 = pd.Series(['2'],index = ['d'])
s_3 = s_2.append(s_3)#s_2 s_3的数据类型得相同!!

s_1.drop('a')

s_2[0] = 'petter'

1.2认识Dataframe(数据框)

可以简单理解为一个Excel表格，废话不多说！先上代码

import pandas as pd
df_1 = pd.DataFrame({'age':[10,11,12],
                'name':['Tim','jack','rose'],
                'income':[100,200,300]},
                index=['person1','person2','person3'])

让我们再来看看效果，是不是对理解有了更进一步的认识呢！

我们接下来看看它的属性吧！！

df_1.index
>>Index(['person1', 'person2', 'person3'], dtype='object')
df_1.columns
>>Index(['age', 'name', 'income'], dtype='object')
df_1.values
>>array([[10, 'Tim', 100],
       [11, 'jack', 200],
       [12, 'rose', 300]], dtype=object)

改名字

#修改列名
df_1.columns = ['a','c','f']#字符型
df_1.columns = range(0,len(df_1.columns))#数字型
#精确修改
df_1.rename(columns={1:'hh'},inplace = True)

如果想改行名的话直接在把columns换成index就可以了！

来看看df_1变成什么样子了

'''增加行or列'''

df_1['pay'] = [1,2,3]
df_1.loc['person4',[0,'hh',2,'pay']] = [13,'jimi',400,90]

效果

可以看出，以上都是在最后一行或者最后一列增加，那接下来我们来看指定位置增加

指定位置

DataFrameName.insert(loc,colums,value)

loc:是一个整数，我们要插入列的位置
column:是一个字符串，列名

2.访问DataFrame

df_1.hh#访问列名为hh的
df_1[[0,2]]#访问第一列和第三列
df_1[0:2]#访问前三行
df_1.loc[['person1','person4']]#访问名字
df_1.loc['person1','hh']#访问特定的值

2.1删除操作

data = df_1.drop('hh',axis=1,inplace = False)
#删除名字为hh的这一列,不会在原处修改
del df_1['hh']#删除名字为hh的这一列,直接在原数据修改
df_1.drop('person2',axis=0,inplace = True)
#删除名字为hh的这一行,会在原处修改

2.2查询数据的方法

先创建一个数据框

import pandas as pd
import numpy as np
datas = pd.date_range('20221001',periods = 5)
df = pd.DataFrame(np.arange(30).reshape(5,6),index = datas,
                  columns = ['a','b','c','d','e','f'])

loc方法#标签索引

df.loc[index.columns]

df.loc['20221003','b']#某个值
>>13
df.loc['20221004',['b','d']]#2个值
>>b    19
  d    21
Name: 2022-10-04 00:00:00, dtype: int64
df.loc[:,['b','d']]#所有行的b d列
>>           b   d
2022-10-01   1   3
2022-10-02   7   9
2022-10-03  13  15
2022-10-04  19  21
2022-10-05  25  27

iloc方法(位置索引)

df.iloc[2,1]
df.iloc[3,[1,3]]
df.iloc[:,[1,3]]

ix方法(混合索引)

在pandas版本0.20.0及其以后版本中，ix已经不被推荐使用，。这是为什么呢？这是由于ix的复杂特点可能使ix使用起来有些棘手：