【和鲸社区 Pytorch20天学习】第一课结构化数据建模流程范例

最新推荐文章于 2025-02-28 22:14:02 发布

yzzheng_60125

最新推荐文章于 2025-02-28 22:14:02 发布

阅读量2.7k

点赞数 1

分类专栏：深度学习文章标签：矩阵机器学习深度学习

本文链接：https://blog.csdn.net/Alearn_/article/details/122704498

版权

数据准备

使用titanic数据集

数据集情况说明
Fig1

数据可视化，使用matplotlib进行可是化数据

%matplotlib inline
%config InlineBackend.figure_format = 'png'
ax = dftrain_raw['Survived'].value_counts().plot(kind = 'bar',
     figsize = (12,8),fontsize=15,rot = 0)
ax.set_ylabel('Counts',fontsize = 15)
ax.set_xlabel('Survived',fontsize = 15)
plt.show()

这可以画出年龄密度的曲线图


%matplotlib inline
%config InlineBackend.figure_format = 'png'
ax = dftrain_raw.query('Survived == 0')['Age'].plot(kind = 'density',
                      figsize = (12,8),fontsize=15)
dftrain_raw.query('Survived == 1')['Age'].plot(kind = 'density',
                      figsize = (12,8),fontsize=15)
ax.legend(['Survived==0','Survived==1'],fontsize = 12)
ax.set_ylabel('Density',fontsize = 15)
ax.set_xlabel('Age',fontsize = 15)
plt.show()

Fig2

数据预处理

用到pandas的get_dymmies函数，这个函数就是把数据进行one-hot编码

def preprocessing(dfdata):

    dfresult= pd.DataFrame()

    #Pclass
    dfPclass = pd.get_dummies(dfdata['Pclass'])  #get_dummies可以实现one-hot编码
    dfPclass