表格合并
左右拼接两个表,将data2作为新列并入data1的左侧
data3=pd.concat([data1,data2],axis=1)
合并两个表,若不指定on=***,则根据相同的列来合并。若指定,则按on里的内容合并
df=pd.merge(data1,data2,on=['年份'])
数据清洗
查看0值/占总数据的比例
print(dataframe.isnull().sum()/dataframe.shape[0])
填充0值
dataframe[i]=dataframe[i].fillna(dataframe[i].mean())
去除极值
import numpy as np
def filter_extreme_MAD(dataframe,n=3):
# MAD:绝对中位差去极值
for i in dataframe.columns:
median = dataframe[i].quantile(0.5)
new_median = ((dataframe[i] - median).abs()).quantile(0.50)
max_range = median + n * new_median
min_range = media