Tensorflow——预测泰坦尼克号乘客的存活率

最新推荐文章于 2022-05-12 20:19:25 发布

可欣の扣得儿

最新推荐文章于 2022-05-12 20:19:25 发布

阅读量1k

点赞数

分类专栏： tenserflow笔记文章标签：深度学习 tensorflow

本文链接：https://blog.csdn.net/aspirinLi/article/details/105350452

版权

tenserflow笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、数据预处理

首先，我们手上的数据有三个文件：train.csv是用于训练的，test.csv是用于测试的，gender.csv是对应于test的一个标签。

首先，我们来分析数据集的结构：

对于是否获救来说，Id、姓名（Name）、票号（Ticket）并没有影响，所以我们将这三列剔除：

data = pd.read_csv('./data/train.csv')
#剔除影响较小的特征
data = data[[ 'Survived', 'Pclass', 'Sex', 'Age', 'SibSp',
       'Parch',  'Fare', 'Cabin', 'Embarked']]

我们需要将数据集中的字母类型转化为数字编码：

对于Cabin，他是由字母和数字同时组成的，这里使用了pd.factorize()，关于这个方法的解释，可以参考https://blog.csdn.net/ssswill/article/details/86555935，于是代码如下：

data['Cabin'] = pd.factorize(data.Cabin)[0]

由于数据集中存在一些空值，所以要去填充这些空值为0，fillna()中的inplace为True时代表直接修改原对象，为False代表创建副本后修改副本，于是代码如下：

data.fillna(0,inplace = True)

对于性别一栏的处理相对简单，如下：

data['Sex'] = [1 if x == 'male' else 0 for x in data.Sex]

Pclass一栏代表船舱等级，为了避免将编号理解成倍数数值关系，这里使用类似于独热编码的方式，将编号转换成三列的编码，完成后，删除原来的Pclass这列，如下：

#使用独立编码，避免出现数值倍数关系
data['p1'] = np.array(data['Pclass'] == 1).astype(np.int32)
data['p2'] = np.array(data['Pclass'] == 2).astype(np.int32)
data['p3'] = np.array(data['Pclass'] == 3).astype(np.int32)
#然后删除pclass这行
del data['Pclass']

港口号的处理方式也与上述类似：

#先查看港口号有哪几类
#print(data.Embarked.unique())
#处理港口号
data['e1'] = np.array(data['Embarked'] == 'S').astype(np.int32)
data['e2'] = np.array(data['Embarked'] == 'C').astype(np.int32)
data['e3'] = np.array(data['Embarked'] == 'Q').astype(np.int32)
del data['Embarked']

以上，训练数据就处理完毕，接下来的测试数据集也是用相同的方法：

data_test = pd.read_csv('./data/test.csv')
#这里主义测试数据集没有Survived这列，他对应的Survived在gender.csv里
data_test = data_test[['Pclass', 'Sex', 'Age', 'SibSp','Parch',  'Fare', 'Cabin', 'Embarked']]
data_test['Age'] = data_test['Age'].fillna(data_test['Age'].mean())
data_test['Cabin'] = pd.factorize(data_test.Cabin)[0]
data_test.fillna(0,inplace = True)
data_test['Sex'] = [1 if x == 'male' else 0 for x in data_test.Sex]
data_test['p1'] = np.array(data_test['Pclass'] == 1).astype(np.int32)
data_test['p2'] = np.array(data_test['Pclass'] == 2).astype(np.int32)
data_test['p3'] = np.array(data_test['Pclass'] == 3).astype(np.int32)
del data_test['Pclass']
data_test['e1'] = np.array(data_test['Embarked'] == 'S').astype(np.int32)
data_test['e2'] = np.array(data_test['Embarked'] == 'C').astype(np.int32)
data_test['e3'] = np.array(data_test['Embarked'] == 'Q').astype(np.int32)
del data_test['Embarked']

数据处理完成后，我们就得到以下可使用的数据组：

data_train 是要喂入的X数据；data_target是训练对应的标签（GT); data_test是测试用的数据；test_label是测试对应的标签。

data_train = data[['Sex', 'Age', 'SibSp','Parch',  'Fare', 'Cabin', 'p1','p2','p3','e1','e2','e3']]
data_target = data['Survived'].values.reshape(len(data),1)

test_label = pd.read_csv('./data/gender.csv')
test_label = np.reshape(test_label.Survived.values.astype(np.float32),(418,1))

二、模型建立

模型用的是最常规最简单的方法：

x = tf.placeholder(shape=[None,12],dtype = tf.float32)
y = tf.placeholder(shape=[None,1],dtype = tf.float32)

weight = tf.Variable(tf.random.normal([12,1]))
bias = tf.Variable(tf.random.normal([1]))
output = tf.matmul(x,weight)+bias

loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(labels=y,logits=output))
step = tf.train.GradientDescentOptimizer(0.0003).minimize(loss)

pred = tf.cast(tf.sigmoid(output)>0.5,tf.float32)
accuracy = tf.reduce_mean(tf.cast(tf.equal(pred,y),tf.float32))

init = tf.global_variables_initializer()
with tf.Session() as sess:
    loss_train = []
    train_acc = []
    test_acc = []
    sess.run(init)
    for i in range(25000):
        for n in range(len(data_target)//100+1):
            batch_xs = data_train[n*100:n*100+100]
            batch_ys = data_target[n * 100:n * 100 + 100]
            sess.run(step,feed_dict={x:batch_xs,y:batch_ys})
        if i%1000 == 0:
            loss_temp = sess.run(loss,feed_dict={x:batch_xs,y:batch_ys})
            loss_train.append(loss_temp)
            train_acc_temp = sess.run(accuracy,feed_dict={x:batch_xs,y:batch_ys})
            train_acc.append(train_acc_temp)
            test_acc_temp = sess.run(accuracy,feed_dict={x:data_test,y:test_label})
            test_acc.append(test_acc_temp)
            print(loss_temp,train_acc_temp,test_acc_temp)

训练部分可以考量的有loss的选择（这里用的是交叉熵）、学习率、训练批数的选择。

三、PLT可视化

简单考察一下训练效果：

plt.plot(loss_train,'k-')
plt.title('train loss')
plt.show()

plt.plot(train_acc,'b-',label = 'train_acc')
plt.plot(test_acc,'r--',label = 'test_acc')
plt.title('train and test accuracy')
plt.legend()
plt.show()