pandas基本使用（一）

最新推荐文章于 2024-05-12 12:09:03 发布

ErnestW

最新推荐文章于 2024-05-12 12:09:03 发布

阅读量730

点赞数 1

分类专栏：数据分析文章标签： python 开发语言后端 pandas

本文链接：https://blog.csdn.net/ErnestW/article/details/122102068

版权

数据分析专栏收录该内容

3 篇文章 0 订阅

订阅专栏

相当于Excel中的一个Sheet表。

创建方法

典类型读取到DataFrame（dict to DataFrame）

方法一：

直接使用pd.DataFrame(data=test_dict)即可,括号中的data=写不写都可以，具体如下：

test_dict = {'id':[1,2,3,4,5,6],'name':['Alice','Bob','Cindy','Eric','Helen','Grace '],'math':[90,89,99,78,97,93],'english':[89,94,80,94,94,90]}
#[1].直接写入参数test_dict
test_dict_df = pd.DataFrame(test_dict)
#[2].字典型赋值
test_dict_df = pd.DataFrame(data=test_dict)

方法二：

使用from_dict方法：

est_dict_df = pd.DataFrame.from_dict(test_dict)

其他方法：

如果你的dict变量很小，例如{'id':1,'name':'Alice'},你想直接写到括号里：

test_dict_df = pd.DataFrame({'id':1,'name':'Alice'}) # wrong style

这样是不行的，会报错ValueError: If using all scalar values, you must pass an index,是因为如果你提供的是一个标量，必须还得提供一个索引Index，所以你可以这么写：

test_dict_df = pd.DataFrame({'id':1,'name':'Alice'},pd.Index(range(1)))

后面的可以写多个pd.Index(range(3)，就会生成三行一样的，是因为前面的dict型变量只有一组值，如果有多个，后面的Index必须跟前面的数据组数一致，否则会报错：

pd.DataFrame({'id':[1,2],'name':['Alice','Bob']},pd.Index(range(2)))  #must be 2 in range function.

关于选择列，有些时候我们只需要选择dict中部分的键当做DataFrame的列，那么我们可以使用columns参数，例如我们只选择’id’，'name’列：

test_dict_df = pd.DataFrame(data=test_dict,columns=['id','name']) #only choose 'id' and 'name' columns

csv文件构建DataFrame（csv to DataFrame）

方法一：最常用的应该就是pd.read_csv('filename.csv')了，用 sep指定数据的分割方式，默认的是','

df = pd.read_csv('./xxx.csv')

如果csv中没有表头，就要加入head参数

在已有的DataFrame中，增加N列或者N行

添加列

new_columns = [92,94,89,77,87,91]
test_dict_df.insert(2,'pyhsics',new_columns)
#test_dict_df.insert(2,'pyhsics',new_columns,allow_duplicates=True)

此时，就得到了添加好的DataFrame，需要注意的是DataFrame默认不允许添加重复的列，但是在insert函数中有参数allow_duplicates=True，设置为True后，就可以添加重复的列了，列名也是重复的

添加行

new_line = [7,'Iric',99]
test_dict_df.loc[6]= new_line

当然也可以把这些新的数据构建为一个新的DataFrame，然后两个DataFrame拼起来。可以用append方法，不过不太会用，提供一种方法。

test_dict_df.append(pd.DataFrame([new_line],columns=['id','name','physics']))

查询方法

1、 loc和iloc函数都是用来选择某行的，iloc与loc的不同是：iloc是按照行索引所在的位置来选取数据，参数只能是整数。而loc是按照索引名称来选取数据，参数类型依索引类型而定；
2、 at和iat函数是只能选择某个位置的值，iat是按照行索引和列索引的位置来选取数据的。而at是按照行索引和列索引来选取数据；
3、 loc和iloc函数的功能包含at和iat函数的功能。

1、loc函数

愿意看官方文档的，请戳这里，这里一般最权威。
loc函数是基于“标签”选择数据的，但是也可以接受一个boolean的array。

1.1单个label

接受一个“标签”（label）参数，返回一个Series

test_dict_df.loc[1] #return the row with name 'Bob'
test_dict_df.loc[7] #return the row with name 'Time' important!!!
# type(test_dict_df.loc[1]) #pandas.core.series.Series

1.2一个label的array

test_dict_df.loc[[1,2,4]]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HnJwsb30-1640228256202)(C:\Users\21000123\AppData\Roaming\Typora\typora-user-images\image-20211222192605765.png)]

1.3加入一个切片array

test_dict_df.loc[[1:4]]

1.4 行标签，列标签

test_dict_df.loc[1,'english']  #result：94

1.5行标签或者列标签是切片array

test_dict_df.loc[1:4,'english']
# test_dict_df.loc[1:4,'english':'math']

1.6还可以接受条件，进行选择

例如我们选择英语成绩超过90的所有行

test_dict_df.loc[test_dict_df['english']>90]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-coCHMZQA-1640228256204)(C:\Users\21000123\AppData\Roaming\Typora\typora-user-images\image-20211222192805621.png)]

当然，也可以再条件选择后，再加入列选择，列选择的时候可以单列，也可以是切片数组，通过上面的介绍这里就可以灵活处理：

test_dict_df.loc[test_dict_df['english']>90,'english'] #single label
test_dict_df.loc[test_dict_df['english']>90,'english':'name'] #slice array
test_dict_df.loc[test_dict_df['english']>90,['english','name']] #label array

1.7接受一个boolean的array

可以接受一个boolean的array，相当于按照这个表的真假按照位置的顺序选择值

test_dict_df.loc[[True,False,False,True]]

2.iloc函数

官方文档戳这里。
iloc函数与loc函数不同的是，它接受的是一个数字，代表着要选择数据的位置：

test_dict_df.iloc[6]

这代表我们选择的是第6行，而不是index为6的那一行。当然，也可以接受一个boolean的array，相当于按照这个表的真假按照位置的顺序选择值：

test_dict_df.iloc[[True,False,False,True]]

这里iloc也可以接受切片array：

# test_dict_df.iloc[1:2]
test_dict_df.iloc[[1,2,4]]

3.at函数

at是用来选择单个值的，此时用法类似于loc：

test_dict_df.at[1,'english']
test_dict_df.loc[1,'english']

以上两种方法都能选择到，label为1，列为’english’的那个值，但是据说at速度要快。

4.iat函数

iat函数相对于at函数，就相当于iloc相对于loc函数。iat也只能选择一个值。只不过是用索引位置来选择，注意：行列都是索引位置来选择，从0开始数。

# test_dict_df.iat[1,'english'] #error!!!
test_dict_df.iat[2,2] #right!!!

5.其他多条件查询

1.使用loc的方式

test_dict_df.loc[test_dict_df['english']>90]
test_dict_df.loc[test_dict_df['name'].str.contains('n')] #包含

2.使用query进行查询

test_dict_df.query('math < 90 | name == "Helen"')
test_dict_df.query('math < 90 & english > 92')
test_dict_df.query('math in [99,89] | name == "Helen"')

3.使用本身属性

test_dict_df[(test_dict_df.math< 90) |(test_dict_df.english=="Helen")]

6.查询前几行

df.head(5)
df.iloc[:5]

**注意这里的()不能省略，**虽然在Python条件判断中 >、<、== 的优先级要高于 and 和 or ，但是在DataFrame多条件运算中并不是这样

行列删除

1、删除DataFrame某一列

这里我们继续用上一节产生的DataFrame来做例子，原DataFrame如下：

我们使用drop()函数，此函数有一个列表形参labels，写的时候可以加上labels=[xxx]，也可以不加，列表内罗列要删除行或者列的名称，默认是行名称，如果要删除列，则要增加参数axis=1，操作如下：

#pd.__version__ =='0.18.0'
#drop columns
test_dict_df.drop(['id'],axis=1)
#test_dict_df.drop(columns=['id']) # official operation， maybe my pandas version needs update!

结果如下，对于上面的代码，官方教程文档中给出了columns=['name']，但是在我测试的时候会报错，我用的python3，pandas版本为0.18，可能是pandas版本太老的缘故。

这里注意输出的结果是执行此方法的结果，而不是输出test_dict_df的结果，是因为方法默认的并不是在本身执行操作，这时候输出test_dict_df输出的仍然是没有进行删除操作的原DataFrame，如果你想在原DataFrame上进行操作，需要加上inplace=True，等价于在操作完再赋值给本身：

test_dict_df.drop(['id'],axis=1,inplace=True)
# test_dict_df = test_dict_df.drop(['id'],axis=1)

2.、删除DataFrame某一行

删除某一行，在上面删除列操作的时候也稍有提及，如果不加axis=1，则默认按照行号进行删除，例如要删除第0行和第4行：

test_dict_df.drop([0,4])

同理，你要在源DataFrame上进行操作就得加上inplace参数，否则不会在test_dict_df上改动。

当然，如果你的DataFrame有很多级，你可以加上level参数，这里就不多赘述了。

修改方法

一、列值修改

1.loc方法修改

loc方法实际上是定位某个位置的数据的，但是定位完以后就可以对此位置的数据进行修改，使用此方法可以对DataFrame进行的修改如下：

对某行、某N行进行修改；
对某列、某N列进行修改；
对横坐标为某行或某N行，纵坐标为某列或者某N列的数据进行修改；

可以看出基本用loc方法我们对DataFrame可以进行任意修改了。

1.1 对某行、某N行进行修改

# 对第1行进行修改
test_dict_df.loc[1:1,('english','id','math','name')]=[90,2,100,'Alice_m']
# 对第0行到第1行进行修改
test_dict_df.loc[0:1,('english','id','math','name')]=[[90,1,100,'Alice_m'],[70,2,100,'Bob']]
# 对第0行和第2行进行修改
test_dict_df.loc[0:3:2,('english','id','math','name')]=[[90,1,100,'Alice_m'],[70,2,100,'Bob']]

可以看出具体的方法就是用loc方法，对某行或者某N行进行定位，然后赋予合适的格式的值就可以了。

1.2 对某列、某N列进行修改

学会了使用loc方法对行的修改，那触类旁通，对列的修改也很简单了。对列修改也就是修改此列的所有行。

# 对第english列进行修改
test_dict_df.loc[:,('english')]=[90,80,70,90,90,59] #test_dict_df.loc[:,'english']=[90,80,70,90,90,59]
# 对第english列和id列进行修改，注意赋值的写法
test_dict_df.loc[:,('english','id')]=[[90,1],[80,2],[80,2],[80,2],[80,2],[80,2]]

1.3 对某个区域的值进行修改

# 对第1、2行的english列和 id列进行修改
test_dict_df.loc[1:2,('english','id')]=[[38,2],[23,2]]

1.4总结

可以看到loc方法就是，只要你能选到某个或者某个区域的值，然后就可以对此部分的值进行修改。但是要注意赋值部分的组织方式。

2.iloc、at、iat方法修改

类比于上面的方式，其实只要能选择，都是可以修改的。

3.直接转换

#时间转换取前几位
df['Date'].str[-4:].astype(int)#pandas特有，效率高一些
#或者
df['Date'].str[-4:].map(int)

4.extract

#使用正则匹配
df['Date'].str.extract('(?P<year>\d{4})').astype(int)

5.lambda

定义函数进行处理

df['Date'] = df['Date'].apply(lambda x: int(str(x)[-4:]))

二、列名的修改

1、直接全部更改

这种方法是对DataFrame的列名进行重新赋值，比较暴力直接。

test_dict_df.columns=['english_new','id_new','math_new','name_new']

2、使用rename方法

这种方法是比较推荐的，通过rename方法，注意参数inplace=True的时候，才能真正的在原来的DataFrame上进行修改。

test_dict_df.rename(columns={'english_new':'english'},inplace=True)

三、索引的修改

1、修改索引名称

上面的rename方法，如果不写columns=xx就默认修改索引了。

test_dict_df.rename({0:'english1'},inplace=True)

2、重置索引

通过reset_index()方法我们可以重置索引，drop参数为True时，直接丢弃原来的索引，否则原来的索引新生成一列名为’index’的列：

test_dict_df.reset_index(inplace=True,drop=True)

2、设置其他列为索引

当然我们也可以用其他列为索引，通过set_index()方法：

test_dict_df.set_index('id_new')

四、总结

可以看到，所谓的修改首先要能选择修改的位置，即定位，然后对确定好的位置进行重新赋值，所以我们学会了如何选择数据，也就基本能修改此处的数据

ErnestW

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
pandas基本使用（一）

相当于Excel中的一个Sheet表。创建方法典类型读取到DataFrame（dict to DataFrame）方法一：直接使用pd.DataFrame(data=test_dict)即可,括号中的data=写不写都可以，具体如下：test_dict = {'id':[1,2,3,4,5,6],'name':['Alice','Bob','Cindy','Eric','Helen','Grace '],'math':[90,89,99,78,97,93],'english':[89,94,80,
复制链接

扫一扫

专栏目录