Python数据分析 | DataFrame（数据框）

最新推荐文章于 2024-09-14 10:14:36 发布

frozen122

最新推荐文章于 2024-09-14 10:14:36 发布

阅读量1.3k

点赞数 2

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/frozen122/article/details/116427770

版权

python 专栏收录该内容

9 篇文章 3 订阅

订阅专栏

DataFrame

DataFrame是Pandas包提供的一种类似关系表的数据结构

定义

直接定义（很少使用）
pd.DataFrame()
参数可以是numPy、列表、字典、元组、Series等
导入定义（常用）
导入导出前提：需要知道当前工作目录的位置
导入：pd.read_csv( file)
写出：pd.to_type(file)
导入时，系统会自动增加index行，可以将参数index_col设置为0来解决

查看

查看形状：属性shape

引用

按列名读取
写法一：列名出现在下标中
写法二：列名当作属性
写法三：列名行号一起用
写法四：属性名行号一起用
写法五：切片
按index读取
loc属性：显式index
按位置（既隐式index）
iloc属性：隐式index

删除

切片后del或直接赋值给新数据框
参考数组过滤条件
方法drop()
inplace = True，就地修改
inplace = False，另外返回一个值

缺失数据处理

判断一个数据框是否为空数据框：属性empty()
在Python基础语法中，None不能参加计算，NaN可以参加计算，而在Pandas中，二者一样，都可以参加计算，将None自动转换为np.nan（float类型）

补齐缺失值：

fill_value = 0
用均值补齐缺失值：DataFrame.stack().mean()
mean() 按行计算，stack()则是建立多级索引，一起用就可以得到整个数据框的均值
unstack()则为撤销多级索引

常用函数

isnull() ：判断每个元素是否为空
notnull() :判断是否非空
dropna()：直接删除缺失值
fillna()：设置缺失值的补齐方式
可以设置method = "ffill 或 bfill ，既向前填充或向后填充

算术运算

原则一：先补齐显式index（新增索引对应值为NaN），得到相同的结构后，再进行计算
原则二：算术运算符“+、-”等会产生NaN值，如果想要默认填充的NaN改为指定值，建议不要使用算术运算符，而改用成员方法，如add()、sub()、mul()、div()
原则三：数据框与Series的计算规则——按行广播，先把行改为等长，行内不做循环补齐。只是一行一行的计算，不会跨行广播

常用函数：