经济基础决定上层建筑,这句话同样适用于编程,即使现在有了gpt的编程辅助,平时工作过程中如果对于一些基础库和基础函数使用不熟练,还是会影响工作效率。
一、Dataframe
dataframe即数据表格,是Pandas库的一种数据格式,能充分发挥pandas库强大的索引功能。
dataframe的一些常用函数、用法:
(一)用于读数据
①第一种:pd.DataFrame(data)
: 从数据创建 DataFrame。【输入数据】
②第二种:pd.read_csv('file.csv')
: 从 CSV 文件创建 DataFrame。【从csv读】
③第三种【用的最多】:pd.read_excel('file.xlsx')
: 从 Excel 文件创建 DataFrame,代码中直接使用绝对路径最方便。【从excel读】
(二)查看数据
①df.head(n)
: 显示前 n 行。/tail(n)
: 末尾 n 行。【看数据】
②df.shape
: 返回 DataFrame 的行数和列数。【看形状】
③df.info()
: 显示总行数、列名、每列非空数据。【看概要】
(三)数据切片(筛选)
①df[['列1', '列2']]
: 输入列名,选择多列数据。【整列切】
②df.loc[row_label, col_label]
: 根据标签选择数据。【输入行名或列名访问】
③df.iloc[row_index, col_index]
: 根据整数位置选择数据。【输入行索引或列索引访问】
④df[df['列名'] > 5]
: 根据条件筛选数据。【筛选后再对数据做处理】
(四)数据处理
①df.drop(columns=['列1'], inplace=True)
: 删除列。
②分组与聚合。
聚合举例:(mean、max、min、sum、count-非空值数量、agg-同时用多个聚合函数)
用法:
df.groupby('Category')['Value'].mean()
用法2:
df.groupby('Category')['Value'].agg(['mean','sum','max'])
聚合举例:(groupby-按列的值进行分组、size-每个分组的行数、first-返回分组的第一个元素、last、get_group-获取指定分组的数据、apply-使用分组自定义函数)
用法:
group_A = grouped.get_group('A')
③填充缺失值:df.dropna()
: 删除包含缺失值的行 / df.fillna(value)
: 填充缺失值。
(五)数据合并与可视化
①数据合并
pd.concat([df1, df2])
: 沿轴合并数据帧。【合并两个df】
pd.merge(df1, df2, on='列名')
: 根据列名合并数据帧。
②数据可视化
df.plot(kind='图表类型')
: 创建数据可视化图表。【画图】
二、Pandas数据库
Pandas库是建立在Numpy库的基础上,添加了索引和标签,具有Dataframe和Series两种更高级的数据结构。
Pandas库更加适用于数据的清洗、处理。
关于Series:dataframe中的每一列,都可以看作一个series,dataframe像是series的容器。每个Series在底层都是基于 Numpy 的数组。
三、Numpy数据库
作用:用于处理多维数组和矩阵。
两类数据结构:
①ndarray。存放不同维度的数组(一维、二维、三维),支持广播(broadcasting,允许在不同的数组之间操作)。
②dtype。