Tensorflow 神经网络二分类多分类输出层网络结构与loss计算的from_logits设置

最新推荐文章于 2022-09-30 17:00:19 发布

老光头_ME2CS

最新推荐文章于 2022-09-30 17:00:19 发布

阅读量4.4k

点赞数 3

分类专栏： Tensorflow 学习笔记 Python 卷积神经网络文章标签： tensorflow 神经网络深度学习人工智能

本文链接：https://blog.csdn.net/Forrest97/article/details/106094177

版权

Python 同时被 3 个专栏收录

53 篇文章 6 订阅

订阅专栏

Tensorflow 学习笔记

34 篇文章 15 订阅

订阅专栏

卷积神经网络

26 篇文章 3 订阅

订阅专栏

针对二分类问题，最后一层的输出可以采用不同的设置方式，关键取决于目标值y_target的数据处理形式。

目标输出（0 or 1）

如果y_target处理成（N, 1）格式，即布尔型格式（但本质应该还是整型）
最后一层的网络结构，采用1个神经元的全连接网络：

方案一

tf.keras.layers.Dense(1)  #最后层
model.compile(loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
              optimizer=tf.keras.optimizers.Adam(1e-4),
             metrics=['accuracy'])

方案二

tf.keras.layers.Dense(1, activation='sigmoid') #最后层
model.compile(loss=tf.keras.losses.BinaryCrossentropy(from_logits=False),
              optimizer=tf.keras.optimizers.Adam(1e-4),
              metrics=['accuracy'])

Note: 两个方案的区别是最后一层是否使用sigmoid激活函数处理，将y_pred处理为[0, 1]之间的概率值。同时，处理二元交叉熵的时候，from_logits设置存在差异。

from_logits设置

根据Tensorflow 官网tf.keras.losses.BinaryCrossentropy介绍对未经过概率处理y_pred（方案一）最好设置from_logits=True，使得计算结果更加稳定。
from_logits=True 就表示需要在计算loss前再进行一次概率处理（'sigmoid’或者‘softmax’）

结果比较

在没有设置tf随机种子的情况下，比较两个方案的预测结果基本相同

方案一

在这里插入图片描述

方案二

在这里插入图片描述
所以，方案一和二在本质上没有任何区别

无概率处理结果

再对比一下最后一层不做概率处理的训练结果
在这里插入图片描述
可以看出，由于网络的输出数值不收敛于目标输出的[0,1]区间内，不仅loss数值更大，而且导致整个网络无法训练成功。可见正确设置from_logits对网络训练十分重要。

目标输出 one_hot 编码（10 or 01）

如果如果y_target处理成（N, 2）格式，即输出是经过one_hot编码，本质上同多分类的问题的处理方式相同。
因此针对二分类问题num_classes=2，
activation=‘sigmoid’，如前一节方案一，没有激活层时注意设置from_logits=False
loss=losses.CategoricalCrossentropy()

tf.keras.layers.Dense(num_classes, activation='sigmoid' )#最后层
newnet.compile(optimizer=optimizers.Adam(lr=1e-3),
               loss=losses.CategoricalCrossentropy(from_logits=False),
               metrics=['accuracy'])

老光头_ME2CS

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Tensorflow 神经网络二分类多分类输出层网络结构与loss计算的from_logits设置

针对二分类问题，最后一层的输出可以采用不同的设置方式，关键是取决于目标值y_target的数据处理形式。目录目标输出（0 or 1）方案一方案二from_logits设置结果比较方案一方案二无概率处理结果目标输出 one_hot 编码（10 or 01）目标输出（0 or 1）如果y_target处理成（N, 1）格式，即布尔型格式（但本质应该还是整型）最后一层的网络结构，采用1个神经元的全连接网络：方案一tf.keras.layers.Dense(1) #最后层model.compil
复制链接

扫一扫