Pandas 33个冷知识
-
安装Pandas: 使用
pip install pandas
来安装Pandas库。 -
数据结构: Pandas主要有两种数据结构:Series(一维数据)和DataFrame(二维数据)。
-
创建Series: 使用
pd.Series([1, 2, 3])
来创建一个简单的Series。 -
创建DataFrame: 使用
pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
来创建一个简单的DataFrame。 -
读取CSV文件: 使用
pd.read_csv('file.csv')
来读取CSV文件。 -
写入CSV文件: 使用
df.to_csv('file.csv', index=False)
来将DataFrame写入CSV文件。 -
查看数据: 使用
df.head()
和df.tail()
来查看DataFrame的前几行和最后几行。 -
描述数据: 使用
df.describe()
来生成描述性统计信息。 -
数据类型: 使用
df.dtypes
来查看DataFrame每列的数据类型。 -
转换数据类型: 使用
df['col'].astype('int')
来转换列的数据类型。 -
处理缺失值: 使用
df.dropna()
来删除缺失值,或者使用df.fillna(value)
来填充缺失值。 -
索引: 使用
df.set_index('col')
来设置DataFrame的索引。 -
重置索引: 使用
df.reset_index()
来重置DataFrame的索引。 -
过滤数据: 使用布尔索引
df[df['col'] > value]
来过滤数据。 -
选择列: 使用
df['col']
或df[['col1', 'col2']]
来选择单列或多列。 -
选择行: 使用
df.iloc[0]
按位置选择行,使用df.loc['index']
按索引选择行。 -
计算统计量: 使用
df.mean()
,df.median()
,df.std()
来计算均值、中位数和标准差。 -
字符串操作: 使用
df['col'].str.contains('substring')
来进行字符串操作。 -
分组: 使用
df.groupby('col')
来进行数据分组,并使用df.groupby('col').mean()
来计算分组后的均值。 -
合并数据: 使用
pd.merge(df1, df2, on='key')
来合并两个DataFrame。 -
连接数据: 使用
pd.concat([df1, df2], axis=0)
来连接两个DataFrame。 -
数据透视表: 使用
df.pivot_table(values='val', index='col', columns='col2', aggfunc='mean')
来创建数据透视表。 -
日期处理: 使用
pd.to_datetime(df['date_col'])
来转换日期格式。 -
时间序列: 使用
df.resample('M').mean()
来进行时间序列数据的重采样。 -
绘图: 使用
df.plot()
快速绘制图表。 -
滚动窗口: 使用
df.rolling(window=3).mean()
来计算滚动窗口的均值。 -
累积计算: 使用
df.cumsum()
来计算累积和。 -
唯一值: 使用
df['col'].unique()
来获取列中的唯一值。 -
值计数: 使用
df['col'].value_counts()
来统计每个值的出现次数。 -
排序: 使用
df.sort_values(by='col')
来按列排序。 -
替换值: 使用
df['col'].replace({'old_val': 'new_val'})
来替换值。 -
条件替换: 使用
df['col'] = df['col'].apply(lambda x: 'new_val' if x == 'old_val' else x)
来条件替换。 -
数据样本: 使用
df.sample(frac=0.1)
来随机抽取样本。