Pandas初学习

最新推荐文章于 2024-04-25 17:01:56 发布

你猜¥

最新推荐文章于 2024-04-25 17:01:56 发布

阅读量226

点赞数 1

本文链接：https://blog.csdn.net/qq_43561704/article/details/111145615

版权

今天开始了pandas库的学习,准备向数据分析方向发展，这个库算是必备的吧，毕竟是面试被问最多的库。
pandas库有两个最重要的数据结构，Series (一维数组)和DataFrame(二维数组)
Series的定义与使用
首先导入pandas
import pandas as pd
创建一维数组
pd.Series([1,2,3,4])
结果如下：
0 1
1 2
2 3
3 4
或用index修改标签
df=pd.Series([1,2,3,4],index=[‘a’,‘b’,‘c’,‘d’])
等同于传入字典 pd.Series([‘a’:1,‘b’:2,‘c’:3,‘d’:4])
a 1
b 2
c 3
d 4
表中数据的调用 df[‘标签’]
当两个表格中所有的标签都相同事，可直接用S1+S2
否则，应当使用add（）方法，S1.add（S2，fill_value=0）
设置默认值为0
除此外还有sub(减)，mul(乘)，div(除)，用法与加法相同。

DataFrame(二维数组)
定义方式：
1、传入由等长列表组成的字典，键值为列名，行号从0开始
2、用index修改行号

列的查改增删
查：df[‘索引值’]
改：df[‘索引值’]=[‘value1’,‘value2’]
增：df[‘新索引值’]=[‘value1’,‘value2’]
删：应使用drop()方法，df.drop(‘索引值’，axis=1,inplace=True)
axis=0 修改对应行
axis=1 修改对应列

导入表格
pd.read_csv(‘xxxx.csv’)
pd.read_excel(‘xxx.xlsx’)
保存表格
pd.to_csv(‘xxxx.csv’)
pd.to_excel(‘xxx.xlsx’)

head(value) value可省略，默认5行
查看表格前几行数据
tail(value) value可省略，默认5行
查看表格最后几行数据

info（）查看整个表格的大致信息
多少行多少列等
describe（）查看表格的统计摘要
从上到下
数量，平均数，标准差，最小值，25%，50%，75%位置的值和最大值
可用min() max() mean() sum()等函数

排序
df.sort_values(‘标签’，ascending=False,inplace=True)
排序针对的列名，降序