python学习:pandas库之DataFrame官方文档简介

Pandas库是基于Numpy库来创建的,Numpy主要用于矩阵操作,而Pandas主要用于数据处理。

Pandas主要有两种重要的数据结构:Series和DataFrame.

  • Series: 类似一个一维数组,一个Series对应DataFrame的一列
  • DataFrame:类似一个二维数组,一个DataFrame由几个Series列构成。

在我们学习任何一种开源框架,必须得学会阅读其官方文档:

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html

根据官方文档,我们先看其最左边的目录:

我们通过对各子目录的简单介绍,来了解DataFrame如何运用:

英文目录中文目录该目录下常用属性/方法
Constructor构造方法可以由numpy数组/字典/DataFrame生成
Attributes and
 underlying data
属性值index:数据表的行索引
columns:数据表的列索引
shape:数据表的形状
dtypes:数据表值的数据类型
Conversion转换astype:转换数据类型
Indexing, iteration索引/迭代iloc/loc/iteritems/iterrows/isin
Binary operator functions二元运算符函数add/sub/mul/div:加减乘除,元素级计算
dot:点乘
df1.combine_first(df2):用df2的值填充df1的空值
Function application,
 GroupBy & Window
apply方法/分组/apply:在数据表中沿着行/列方向调用某方法
groupby:通过mapping/方法/标签/标签集进行分组,返回一个GroupBy对象。GroupBy对象可进行统计学各值计算或调用其apply/agg方法+D15。
agg/aggregate:聚合函数
Computations /
Descriptive Stats
计算/描述性统计describe:输出数据表各列统计值-中位值/方差等
/max/mean/var/corr
Reindexing /
 Selection/
 Label manipulation
重新索引/选择数据/通过标签操作reindex:重命名行/列
rename:可以通过字典的方法重命名行/列
/reset_index/
head:选择前N行数据,默认前5行
tail:选择最后N行数据,默认后5行
drop_duplicates:返回丢弃了重复值的dataframe
duplicated:根据是否是重复值返回布尔值Series
drop
Missing data handling缺失值处理dropna/fillna/replace
Reshaping/
 sorting,/
transposing
改变数组形状/
排序/转换
sort_values:按表中内容值大小排序,
sort_index:按行/列的值大小排序
T:矩阵转置
pivot_table:数据透视表
Combining /
 joining /
 merging
合并/连接append:在数据表末尾添加行数据
/join/
merge:类似SQL的连接,内连接/外连接
Time series-related时间序列 
Plotting绘制图形plot:通过kind参数绘制不同图形
Serialization /
 IO /
 Conversion
读取操作from_csv/to_csv
Sparse稀疏矩阵 
数据分箱技术Binning:pandas.cut()
数据分组技术GroupBy:GroupBy.get_group(groupname1)--> 得到其中一组类别的dataframe

 

 

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,我知道了。关于PandasDataFrame对象的使用,可以通过以下方式来创建: ```python import pandas as pd # 创建一个DataFrame对象 df = pd.DataFrame({ 'name': ['Tom', 'Jerry', 'Mickey'], 'age': [18, 20, 22], 'gender': ['M', 'M', 'M'] }) # 打印DataFrame对象 print(df) ``` 上述代码中,我们首先导入了Pandas,并使用pd.DataFrame()函数创建了一个DataFrame对象。在创建时,我们传入了一个字典类型的数据,其中字典的键为列名,字典的值为该列的数据列表。最后,我们通过print()函数打印了该DataFrame对象。 除了创建DataFrame对象,我们还可以对其进行一些基本操作,例如获取某一列或多列的数据: ```python # 获取某一列的数据 name = df['name'] print(name) # 获取多列的数据 name_age = df[['name', 'age']] print(name_age) ``` 上述代码中,我们通过中括号[]来获取DataFrame对象中的某一列或多列数据,并将其赋值给一个变量。需要注意的是,当我们获取多列数据时,需要使用双重中括号[[]]。 除此之外,我们还可以对DataFrame对象进行一些统计计算,例如计算某一列的平均值、最大值、最小值等: ```python # 计算年龄列的平均值 age_mean = df['age'].mean() print(age_mean) # 计算年龄列的最大值 age_max = df['age'].max() print(age_max) # 计算年龄列的最小值 age_min = df['age'].min() print(age_min) ``` 上述代码中,我们通过调用DataFrame对象的mean()、max()、min()等方法,对其某一列数据进行了统计计算,并将结果赋值给一个变量。 这只是PandasDataFrame对象的一些基本用法,还有很多其他的操作和功能。如果你想深入了解,可以查看Pandas官方文档或相关书籍。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值