一、关于python的nan
NaN(not a number),在数学表示上表示一个无法表示的数,这里一般还会有另一个表述inf,inf和nan的不同在于,inf是一个超过浮点表示范围的浮点数(其本质仍然是一个数,只是他无穷大,因此无法用浮点数表示,比如1/0),而nan则一般表示一个非浮点数(比如无理数)。
二、利用图基Tukey method检测数据集中的异常值
利用图基Tukey method检测数据集中的异常值_vincent_duan的博客-CSDN博客_tukey方法
在数据集中如果某一个观察值不寻常地大于或者小于该数据集中的其他数据,我们则称之为疑似异常值。疑似异常值的存在,会对随后的计算结果产生不适当的影响,检测疑似异常值并加以适当的处理是十分必要的。
一种经典的计算数据集中疑似异常值的方法是Tukey method。该方法先计算出数据集的四分之一分位数(Q1)和四分之三分位数(Q3),从而计算出四分位数间距(IQR),然后将小于Q1 - 1.5IQR或者大于Q3 + 1.5IQR的数据点当做是疑似异常值。我们可以借助这种方法在DataFrame中检测异常值。
Tukey‘s test方法 异常值_weixin_30466421的博客-CSDN博客
1.np.percentile()函数
np.percentile()函数超详解_卡拿爱吃鱼的博客-CSDN博客_np.percentile()
2.Python collections.Counter()用法
Python collections.Counter()用法_pvop的博客-CSDN博客_collections.counter python
3.python_4.loc()和iloc()函数
python_4.loc()和iloc()函数_Pepei.的博客-CSDN博客_loc()
# Drop outliers
train = train.drop(Outliers_to_drop, axis = 0).reset_index(drop=True)#注意这里是删除行,axis = 0
4.reset_index(drop=True)
reset_index(drop=True)_Yukyin的博客-CSDN博客
python中axis=0 axis=1的理解_《一夜飘零》的博客-CSDN博客_python的axis=1
5.fillna()
fillna()函数详解_Denver_Liao的博客-CSDN博客_.fillna
6.info()函数与describe函数
info()函数与describe函数_易殇的博客-CSDN博客_info()函数
7.head()函数
Pandas中的head( )函数_ac同学的博客-CSDN博客_head函数
三、特征分析
1.数值特征
1.1.corr()函数 以及 热力图heatmap
corr()函数的用法_努力学--ing的博客-CSDN博客_corr
pandas中的data.corr()函数方法说明及使用_一颗小萌新的博客-CSDN博客_data.corr()
【画图专题】sns.heatmap的用法简介_DrCrypto的博客-CSDN博客_sns.heatmap()
1.2. catplot()函数
详细的数据可视化库之Seaborn教程(二)——catplot:分类型数据作坐标轴画图_pingzishinee的博客-CSDN博客_catplot
1.3.despine()函数
seaborn despine()函数的使用_波尔德的博客-CSDN博客