任务一 Titanic Top 4% with ensemble modeling

一、关于python的nan

NaN(not a number),在数学表示上表示一个无法表示的数,这里一般还会有另一个表述inf,inf和nan的不同在于,inf是一个超过浮点表示范围的浮点数(其本质仍然是一个数,只是他无穷大,因此无法用浮点数表示,比如1/0),而nan则一般表示一个非浮点数(比如无理数)。

python中的nan是什么意思 - 知乎

二、利用图基Tukey method检测数据集中的异常值

利用图基Tukey method检测数据集中的异常值_vincent_duan的博客-CSDN博客_tukey方法

在数据集中如果某一个观察值不寻常地大于或者小于该数据集中的其他数据,我们则称之为疑似异常值。疑似异常值的存在,会对随后的计算结果产生不适当的影响,检测疑似异常值并加以适当的处理是十分必要的。

一种经典的计算数据集中疑似异常值的方法是Tukey method。该方法先计算出数据集的四分之一分位数(Q1)和四分之三分位数(Q3),从而计算出四分位数间距(IQR),然后将小于Q1 - 1.5IQR或者大于Q3 + 1.5IQR的数据点当做是疑似异常值。我们可以借助这种方法在DataFrame中检测异常值。

Tukey‘s test方法 异常值_weixin_30466421的博客-CSDN博客

1.np.percentile()函数

np.percentile()函数超详解_卡拿爱吃鱼的博客-CSDN博客_np.percentile()

2.Python collections.Counter()用法

Python collections.Counter()用法_pvop的博客-CSDN博客_collections.counter python

3.python_4.loc()和iloc()函数

python_4.loc()和iloc()函数_Pepei.的博客-CSDN博客_loc()

# Drop outliers
train = train.drop(Outliers_to_drop, axis = 0).reset_index(drop=True)#注意这里是删除行,axis = 0

4.reset_index(drop=True)

reset_index(drop=True)_Yukyin的博客-CSDN博客

python中axis=0 axis=1的理解_《一夜飘零》的博客-CSDN博客_python的axis=1

5.fillna()

fillna()函数详解_Denver_Liao的博客-CSDN博客_.fillna

6.info()函数与describe函数

info()函数与describe函数_易殇的博客-CSDN博客_info()函数

7.head()函数

Pandas中的head( )函数_ac同学的博客-CSDN博客_head函数

三、特征分析

1.数值特征

1.1.corr()函数 以及 热力图heatmap

corr()函数的用法_努力学--ing的博客-CSDN博客_corr

pandas中的data.corr()函数方法说明及使用_一颗小萌新的博客-CSDN博客_data.corr()

【画图专题】sns.heatmap的用法简介_DrCrypto的博客-CSDN博客_sns.heatmap()

1.2. catplot()函数

Pycharm报错:FutureWarning: `distplot` is a deprecated function and will be removed in a future version_lith__romantic的博客-CSDN博客

详细的数据可视化库之Seaborn教程(二)——catplot:分类型数据作坐标轴画图_pingzishinee的博客-CSDN博客_catplot

1.3.despine()函数 

seaborn despine()函数的使用_波尔德的博客-CSDN博客

2.类别特征

四、特征工程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值