深度学习logits是什么?

什么是logtis? 

在这里插入图片描述

深度学习的上下文中,logits 就是一个向量,下一步通常被投给 softmax/sigmoid 的向量。。

softmax的输出是分类任务的概率,其输入是logits层。 logits层通常产生-infinity到+ infinity的值,而softmax层将其转换为0到1的值。

举个例子:

  • 如果一个二分类模型的输出层是一个单节点,没有激活函数,输出值是2.5。则2.5就是这个样本被预测为正类的logits。
  • 如果一个多分类模型的输出层是5个节点,没有激活函数,输出值是[1.2, 3.1, -0.5, 4.8, 2.3]。则这个向量表示该样本属于5个类别的logits。

logits可以取任意实数值,正值表示趋向于分类到该类,负值表示趋向于不分类到该类。与之对应,probability经过softmax/sigmoid归一化到0-1之间,表示属于该类的概率。


logtis在交叉熵损失中的示例:

logtis可以看作神经网络输出的未经过归一化(softmax/sigmoid)的概率,所以将其结果用于分类任务计算loss时,如求cross_entropy的loss函数会设置from_logits参数。

因此,当from_logtis=False(默认情况)时,可以理解为输入的y_pre不是来自logtis,那么它就是已经经过softmax或者sigmoid归一化后的结果了;当from_logtis=True时,则可以理解为输入的y_pre是logits,那么需要对它进行softmax或者sigmoid处理再计算cross entropy。

如下面的两种方式计算得到的loss都是一样的:

import torch
import torch.nn as nn
import torch.nn.functional as F

from_logits = True  # 标记logtis or sigmoid
y_pre = torch.FloatTensor([[5, 5], [2, 8]])  # logtis值:神经网络的输出,未概率归一化
y_true = torch.FloatTensor([[1, 0], [0, 1]])  # 真实的二分类标签

if from_logits == True:
    # BCEWithLogitsLoss可以直接对logtis值进行二分类的损失计算
    criterion = nn.BCEWithLogitsLoss()
    loss = criterion(y_pre, y_true)
else:
    # BCELoss需要对logtis值进行概率归一化,然后再进行二分类的损失计算
    criterion = nn.BCELoss()
    y_pre = F.sigmoid(y_pre)
    loss = criterion(y_pre, y_true)
print(loss)

神经网络中的logits是什么意思_五月的天气的博客-CSDN博客

  • 20
    点赞
  • 65
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
1.项目代码均经过功能验证ok,确保稳定可靠运行。欢迎下载体验!下载完使用问题请私信沟通。 2.主要针对各个计算机相关专业,包括计算机科学、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师、企业员工。 3.项目具有丰富的拓展空间,不仅可作为入门进阶,也可直接作为毕设、课程设计、大作业、初期项目立项演示等用途。 4.当然也鼓励大家基于此进行二次开发。在使用过程中,如有问题或建议,请及时沟通。 5.期待你能在项目中找到乐趣和灵感,也欢迎你的分享和反馈! 【资源说明】 基于深度学习BERT的触发词抽取、论元抽取、属性抽取项目python源码+项目说明+数据.zip 主要思路: 这是一个基于深度学习的事件抽取。将任务分割为触发词抽取,论元抽取,属性抽取。具体而言是论元和属性的抽取结果依赖于触发词,因此只有一步误差传播。因 time loc 并非每个句子中都存在,并且分布较为稀疏,因此将 time & loc 与 sub & obj 的抽取分开(role1 提取 sub & obj;role2 提取 time & loc) 模型先进行触发词提取,由于数据集的特殊性,模型限制抽取的事件仅有一个,如果抽取出多个触发词,选择 logits 最大的 trigger 作为该句子的触发词,如果没有抽取触发词,筛选整个句子的 logits,取 argmax 来获取触发词; 然后根据触发词抽取模型抽取的触发词,分别输入到 role1 & role2 & attribution 模型中,进行后序的论元提取和属性分类;四种模型都是基于 Roberta-wwm 进行实验,加入了不同的特征。 最后将识别的结果进行整合,得到提交文件。 三、四见pdf 五、项目优缺点 优点: 1、舍弃CRF结构,采用指针式解码的方案,并利用trigger字典。如果未解码出trigger,则比较句子中匹配知识库的所有distant trigger 的 start + end logits,选取最大的一个作为解码出的 trigger 2、具体而言是论元和属性的抽取结果依赖于触发词,因此只有一步误差传播。 3、根据数据的特征,限制解码输出一个trigger,如果解码出多个trigger,选取 logits 最大的那个trigger作为候选trigger 4、根据数据的特点,发现绝大数都有触发词,故采用trigger左右两端动态池化特征作为全局特征; 5、因 time loc 并非每个句子中都存在,并且分布较为稀疏,将 time & loc 和 subject & object 的提取分开,采用两个独立的模型进行提取。 6、由于样本类别不均极其严重,采用10折交叉验证的方法来提升模型的泛化性能。
jieba本身不提供深度学习模型,但是可以结合其他深度学习框架如TensorFlow或PyTorch来完成中文分词任务。 以下是一种基于TensorFlow的深度学习分词代码: 1. 准备数据集: 首先需要准备一个中文分词的数据集,可以使用现成的数据集,如MSR语料库、人民日报语料库等,也可以自己制作。 2. 构建模型: 使用TensorFlow搭建深度学习分词模型,可以使用双向LSTM+CRF等经典模型。 ```python import tensorflow as tf class BiLSTM_CRF(tf.keras.Model): def __init__(self, vocab_size, num_labels, embedding_dim, hidden_dim): super(BiLSTM_CRF, self).__init__() self.embeddings = tf.keras.layers.Embedding(vocab_size, embedding_dim) self.bi_lstm = tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(hidden_dim, return_sequences=True)) self.dense = tf.keras.layers.Dense(num_labels) self.transition_params = tf.Variable(tf.random.uniform(shape=(num_labels, num_labels))) def call(self, inputs, training=False): embeddings = self.embeddings(inputs) mask = tf.cast(inputs != 0, dtype=tf.float32) lstm_out = self.bi_lstm(embeddings, mask=mask) logits = self.dense(lstm_out) return logits def loss(self, inputs, labels): logits = self(inputs) mask = tf.cast(inputs != 0, dtype=tf.float32) log_likelihood, self.transition_params = tf.contrib.crf.crf_log_likelihood(logits, labels, mask) loss = tf.reduce_mean(-log_likelihood) return loss def predict(self, inputs): logits = self(inputs) mask = tf.cast(inputs != 0, dtype=tf.float32) path, _ = tf.contrib.crf.viterbi_decode(logits, self.transition_params) return path ``` 3. 训练模型: 使用训练数据对模型进行训练,并保存训练好的模型。 ```python # 准备训练数据和测试数据 train_x, train_y = load_data('train.txt') test_x, test_y = load_data('test.txt') tokenizer = Tokenizer(lower=False, oov_token=None) tokenizer.fit_on_texts(train_x) train_x = tokenizer.texts_to_sequences(train_x) test_x = tokenizer.texts_to_sequences(test_x) train_x = pad_sequences(train_x, maxlen=MAX_SEQ_LENGTH, padding='post', truncating='post') test_x = pad_sequences(test_x, maxlen=MAX_SEQ_LENGTH, padding='post', truncating='post') train_y = pad_sequences(train_y, maxlen=MAX_SEQ_LENGTH, padding='post', truncating='post') test_y = pad_sequences(test_y, maxlen=MAX_SEQ_LENGTH, padding='post', truncating='post') vocab_size = len(tokenizer.word_index) + 1 num_labels = len(tag2idx) train_dataset = tf.data.Dataset.from_tensor_slices((train_x, train_y)).shuffle(10000).batch(BATCH_SIZE) test_dataset = tf.data.Dataset.from_tensor_slices((test_x, test_y)).batch(BATCH_SIZE) # 构建模型 model = BiLSTM_CRF(vocab_size, num_labels, EMBEDDING_DIM, HIDDEN_DIM) # 训练模型 optimizer = tf.keras.optimizers.Adam(lr=LEARNING_RATE) for epoch in range(NUM_EPOCHS): total_loss = 0 for batch, (inputs, labels) in enumerate(train_dataset): with tf.GradientTape() as tape: loss = model.loss(inputs, labels) gradients = tape.gradient(loss, model.trainable_variables) optimizer.apply_gradients(zip(gradients, model.trainable_variables)) total_loss += loss print('Epoch: {}, Loss: {}'.format(epoch+1, total_loss)) # 保存模型 model.save('model.h5') ``` 4. 使用模型进行分词: 使用已经训练好的模型对新的文本进行分词。 ```python # 加载模型 model = tf.keras.models.load_model('model.h5', compile=False) # 对新文本进行分词 text = '今天天气真好' tokens = jieba.lcut(text) token_ids = [tokenizer.word_index.get(token, 1) for token in tokens] # 1是OOV的编号 inputs = pad_sequences([token_ids], maxlen=MAX_SEQ_LENGTH, padding='post', truncating='post') tags = model.predict(inputs)[0][:len(tokens)] result = [(token, tag2label[tag]) for token, tag in zip(tokens, tags)] print(result) ``` 需要注意的是,深度学习模型需要大量的数据和计算资源进行训练,但是得到的分词效果通常比传统方法更好。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Pengsen Ma

太谢谢了

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值