Pandas 33个冷知识 0715

最新推荐文章于 2024-08-14 23:30:40 发布

trust Tomorrow

最新推荐文章于 2024-08-14 23:30:40 发布

阅读量839

点赞数 29

分类专栏： pandas 文章标签： pandas python 数据分析

本文链接：https://blog.csdn.net/liudadaxuexi/article/details/140446739

版权

pandas 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Pandas 33个冷知识

安装Pandas: 使用 pip install pandas 来安装Pandas库。
数据结构: Pandas主要有两种数据结构：Series（一维数据）和DataFrame（二维数据）。
创建Series: 使用 pd.Series([1, 2, 3]) 来创建一个简单的Series。
创建DataFrame: 使用 pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}) 来创建一个简单的DataFrame。
读取CSV文件: 使用 pd.read_csv('file.csv') 来读取CSV文件。
写入CSV文件: 使用 df.to_csv('file.csv', index=False) 来将DataFrame写入CSV文件。
查看数据: 使用 df.head() 和 df.tail() 来查看DataFrame的前几行和最后几行。
描述数据: 使用 df.describe() 来生成描述性统计信息。
数据类型: 使用 df.dtypes 来查看DataFrame每列的数据类型。
转换数据类型: 使用 df['col'].astype('int') 来转换列的数据类型。
处理缺失值: 使用 df.dropna() 来删除缺失值，或者使用 df.fillna(value) 来填充缺失值。
索引: 使用 df.set_index('col') 来设置DataFrame的索引。
重置索引: 使用 df.reset_index() 来重置DataFrame的索引。
过滤数据: 使用布尔索引 df[df['col'] > value] 来过滤数据。
选择列: 使用 df['col'] 或 df[['col1', 'col2']] 来选择单列或多列。
选择行: 使用 df.iloc[0] 按位置选择行，使用 df.loc['index'] 按索引选择行。
计算统计量: 使用 df.mean(), df.median(), df.std() 来计算均值、中位数和标准差。
字符串操作: 使用 df['col'].str.contains('substring') 来进行字符串操作。
分组: 使用 df.groupby('col') 来进行数据分组，并使用 df.groupby('col').mean() 来计算分组后的均值。
合并数据: 使用 pd.merge(df1, df2, on='key') 来合并两个DataFrame。
连接数据: 使用 pd.concat([df1, df2], axis=0) 来连接两个DataFrame。
数据透视表: 使用 df.pivot_table(values='val', index='col', columns='col2', aggfunc='mean') 来创建数据透视表。
日期处理: 使用 pd.to_datetime(df['date_col']) 来转换日期格式。
时间序列: 使用 df.resample('M').mean() 来进行时间序列数据的重采样。
绘图: 使用 df.plot() 快速绘制图表。
滚动窗口: 使用 df.rolling(window=3).mean() 来计算滚动窗口的均值。
累积计算: 使用 df.cumsum() 来计算累积和。
唯一值: 使用 df['col'].unique() 来获取列中的唯一值。
值计数: 使用 df['col'].value_counts() 来统计每个值的出现次数。
排序: 使用 df.sort_values(by='col') 来按列排序。
替换值: 使用 df['col'].replace({'old_val': 'new_val'}) 来替换值。
条件替换: 使用 df['col'] = df['col'].apply(lambda x: 'new_val' if x == 'old_val' else x) 来条件替换。
数据样本: 使用 df.sample(frac=0.1) 来随机抽取样本。

trust Tomorrow

关注

29
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
Pandas 33个冷知识 0715

Pandas主要有两种数据结构：Series（一维数据）和DataFrame（二维数据）。来查看DataFrame的前几行和最后几行。来查看DataFrame每列的数据类型。来将DataFrame写入CSV文件。来创建一个简单的DataFrame。来设置DataFrame的索引。来重置DataFrame的索引。来创建一个简单的Series。来合并两个DataFrame。来连接两个DataFrame。来进行时间序列数据的重采样。来统计每个值的出现次数。来计算滚动窗口的均值。来转换列的数据类型。
复制链接

扫一扫