1.pandas补充
1.1.concat数据扩充与merge联合查询
我们如果要将两个表结构相同的数据表进行合并,可以使用pandas.concat()方法。
该方法第一个参数必须是一个元组,元组中的元素是你要合并的数据表。例如,
import pandas as pd
score = pd.read_csv("score.csv") # 读取csv文件
score_concat = pd.read_csv("score_concat.csv") # 读取csv文件
concat_result = pd.concat((score, score_concat)) # 将数据表合并
concat()方法主要是为了扩充数据量,便于分析规律。而我们接下来说的pandas.merge()方法主要是将两个表结构不同的表,通过相同的键连接在一起,也就是Mysql中的各种连接。
pandas.merge()方法的前两位参数是要连接的数据表;我们可以添加on参数选择使用指定的键进行表连接,注意on参数必须是列表的形式;how参数用于指定表连接方式,诸如,内连接、外连接、左连接和右连接,分别为inner、outer、left和right,默认为内连接。例如,
df_score_info = pd.read_csv("score_info.csv")
result_merge_inner = pd.merge(df_score, df_score_info, on=["学号"]) # 内连接
result_merge_outer = pd.merge(df_score, df_score_info, how="outer", on=["学号"]) # 外连接
result_merge_left = pd.merge(df_score, df_score_info, how="left", on=["学号"]) # 左连接
result_merge_right = pd.merge(df_score, df_score_info, how="right", on=["学号"]) # 右连接
1.2.聚合函数
在pandas中我们可以使用mean()、sum()、min()、max()、median()等聚合函数进行数据操作,我们可以在聚合函数中添加axis参数选定数据操作方向,axis=1表示对行数据进行操作,axis=0表示对列数据进行操作。例如,
score.mean(axis=