pandas中与库版本或依赖库版本相关的API主要有以下4个:
pandas.version:查看pandas简要版本信息。
pandas.git_version:查看pandasgit版本信息。
pandas._version.get_versions():查看pandas详细版本信息。
pandas.show_versions():查看pandas及其依赖库的版本信息。
汇总
head, tail 函数分别表示返回表或者序列的前 n 行和后 n 行,其中 n 默认为5
info, describe 分别返回表的 信息概况 和表中 数值列对应的主要统计量
特征统计
sum, mean, median, var, std, max, min特征函数
quantile, count, idxmax 这三个函数,它们分别返回的是分位数、非缺失值个数、最大值对应的索引
唯一值
unique 和 nunique 可以分别得到其唯一值组成的列表和唯一值的个数
value_counts 可以得到唯一值和其对应出现的频数
观察多个列组合的唯一值,可以使用 drop_duplicates
- keep ,默认值 first 表示每个组合保留第一次出现的所在行,
- last 表示保留最后一次出现的所在行,
- False 表示把所有重复组合所在的行剔除
duplicated 和 drop_duplicates 的功能类似
替换
三类替换:映射替换、逻辑替换、数值替换
-
映射替换:
包含 replace 方法、
第八章中的 str.replace 方法
第九章中的 cat.codes 方法- replace:
通过字典构造,或者传入两个列表
method参数为ffill用前面一个最近的未被替换的值进行替换
method参数为bfill使用后面最近的未被替换的值进行替换
- replace:
正则替换 str.replace
逻辑替换包括了 where 和 mask ,这两个函数是完全对称的: where 函数在传入条件为 False 的对应行进行替换,而 mask 在传入条件为 True 的对应行进行替换,当不指定替换值时,替换为缺失值。
df.info()
填充缺失值
fillna()
interpolate()插值
pandas其实自带一个很强大的插值函数:interpolate。interpolate可以用在DataFrame对象上,也可以用在Series对象上。
转换为首字母大写
capitalize()
http://joyfulpandas.datawhale.club/Content/ch2.html#id9